概率和统计:它们无处不在,但它们很难理解,而且可能与直觉相反。那么,向没有时间、欲望或背景的观众传达这些数字的最佳方式是什么呢?伊恩·肖特探索了现代可视化技术,发现正确的图片真的胜过千言万语。
乳腺癌检测呈阳性的妇女患乳腺癌的概率是多少?为了明确这个问题,让我们考虑一下这样一个人口,在这个人口中,1%的女性患有乳腺癌,而乳房X光检查有90%的机会返回正确的结果。也就是说,如果一名女性患有癌症,那么检测呈阳性的可能性为90%,如果女性没有患癌症,那么检测呈阴性的可能性为90%。假设某位妇女检测呈阳性,她患乳腺癌的概率是多少?答案可能看起来令人惊讶。
图1:描述乳房X光检查结果的树状图。(单击此处查看此图像的放大版本。)。
如图1所示的树形图可以帮助回答这个问题。树状图中使用的数据来自英国乳腺癌筛查项目。图1从顶部开始,有1000名女性。选择数字1000是为了方便和简单。向下移动,这棵树一分为二:左边的10名妇女(或1%)患有乳腺癌,右边的990名妇女(或99%)没有患乳腺癌。接着,10名患有乳腺癌的女性被分成9名(90%)正确检测呈阳性的女性和1名(10%)错误检测为阴性的女性。990名未患乳腺癌的女性分为99名(或10%)错误检测呈阳性的女性和891名(或90%)正确检测为阴性的女性。从下排我们可以看到,在检测呈阳性的女性中,9人患有乳腺癌,99人没有乳腺癌。因此,乳腺癌检测呈阳性的女性患乳腺癌的概率为9/108,约为8%。
像图1中的图表那样的可视化可以激活信息,引起人们的注意,激发人们的灵感,并产生影响。他们可以简明扼要地总结数据,阐明隐藏的模式,并为那些算力不佳的人提供指导。许多图形都具有这些功能,但当信息复杂且情况非常重要时,用于表示概率的图形可能特别重要。
图1简单而吸引人地解释了乳房X光检查测试问题中复杂的概率集,它引导您了解分析问题所需的逻辑。该数字具有许多所需的属性。它是干净的,没有杂物。这些图标具有提示性,并用数字和文字标记。人口规模的自然选择,即1000人,确保了算法的简单,并考虑了测试的所有结果。最后,也是重要的一点,该图形附带了一个描述如何解释数据的说明。
图2是一个图标显示,它说明了与图1相同的信息,但这一次1000名妇女中的每一个都由一个图标表示。盒子里的女性是那些乳腺癌检测呈阳性的女性,盒子里的9个红色女性是那些检测呈阳性且确实患有癌症的女性。
拥有同一组概率的多种表示非常有用,因为不同的图形格式吸引不同的人。像图2这样的图标显示越来越多地被使用,因为它们可以使用易于处理的数字来描述概率。在20世纪20年代和30年代,奥地利哲学家奥托·诺拉斯和他的合作者普及了图标作为一种交流信息的手段。他们创造了一种名为Isotype的图片语言,在这种语言中,经常使用多个相同的图标来表示数字。
图3显示了Neurath学校的图片。每行包含20个女性图标,每个图标代表相应国家5%的人口。这张图最引人注目的信息是失业女性的比例很大。该图像的数据也可以用数字表格表示(事实上,与该图形一起使用这样的表格会很有用);然而,该图形比表格更有力、更直接地传达统计数据。即使我们的数学很差,我们也会立刻对工作的分布有一个大致的印象。其他著名的数据图形表示包括查尔斯·约瑟夫·米纳德(Charles Joseph Minard)关于拿破仑1812年进入俄罗斯的悲惨战役的流程图(请参阅了解不确定性网站查看数据的动画版本),以及弗洛伦斯·南丁格尔(Florence Nightingale)的极地地形图(同样,请参阅动画版本的了解不确定性)。
图3是历史数据的可视化,而不是概率的可视化,但是诸如图标条形图、块条形图和饼图之类的统计工具当然可以用来传达概率。图4中的堆叠条形图代表了服用他汀类药物十年来的益处(对于一个健康的57岁男性来说)。有两个标签清晰的条;一个代表100名不服用他汀类药物的相似男性的所有可能结果,另一个代表100名服用他汀类药物的相似男性的所有可能结果。这两个栏之间的关键区别是下栏中的黄色部分,这代表了100名服用他汀类药物的男性中有3人没有心脏病发作或中风,如果他们没有服用他汀类药物,他们会患心脏病发作或中风。
图4:堆叠的条形图,显示一个健康的57岁男子在未来10年内心脏病发作或中风的概率。
通常,对图形的需求随着概率的复杂性而增加。飓风艾琳最近横扫美国东海岸。当飓风位于巴哈马群岛附近时,气象学家运行了一个计算机模型来预测其最可能的路径。图5所示的意大利面条图是通过应用具有几组略有不同的初始条件的模型来创建的。该图显示存在多个可能的期货。没有提供具体的概率,因为这张图像只在NBC新闻公告中短暂出现。这条信息被立即而精彩地传达了出来。
图6:2011年温布尔登网球公开赛前十名网球选手赢得男子单打锦标赛机会百分比的三维条形图(赔率取自2011年6月1日威廉·希尔)。
图6中的图表代表了2011年温布尔登网球公开赛男子单打锦标赛前十名男子网球运动员获胜的概率(以百分比表示)。这些概率是根据威廉·希尔提供的赔率改编的。德约科维奇是最终的获胜者,事实上,在锦标赛开始前不久(2011年6月晚些时候),他是最受欢迎的。在条形图中表示这些百分比是合理的,而且这个图表有明确的标签。然而,这种信息被三维效果、不必要的锥体使用和独特的视角所掩盖。我们可以把这些负面特征概括为图表垃圾。它们给本可以提供信息的图表增添了无用的杂乱。图7是没有图表垃圾的图形的改进版本。
图7:2011年温布尔登男子单打锦标赛前十名网球运动员赢得男子单打锦标赛的机会百分比条形图(赔率取自2011年6月1日威廉·希尔)。
有影响力的美国统计学家爱德华·塔夫特(Edward Tufte)强烈主张在图表(如图7)中采用极简主义。他的著作,包括“定量信息的视觉显示”,受到高度赞扬。
图8的饼图是从开球开始的令人印象深刻的互动展示的静态部分,展示了2011年10月15日利物浦和曼联之间的足球比赛结果的概率。(图表摘录于2011年10月8日。)。它很吸引人,看起来很老练,但它具有误导性。每个切片的大小由其在中心的角度确定,表示特定得分的概率。这很好,也是大多数饼图所依据的原则。然而,图8还包括朝向图像中心的不同半径的浓色楔形的集合。这些楔形代表与它们所在的切片相同的概率。不同寻常的是,测量概率的是楔子的半径,而不是楔子的面积。这有特殊的含义;例如,将1-1平局的楔形(12%)与0-0平局的楔形(6%)进行比较。尽管要大得多,但1-1楔形的概率只是0-0楔形的两倍。如果没有楔形的内部集合,图形会更清晰。
图8.2011年10月15日利物浦对阵曼联足球比赛结果概率的饼图(图自开球)。
呈现概率还有其他更微妙的陷阱,适用于语言、数字和图形交流。观众可能对数学掌握得很差,对分数和数字比较感到困惑。他们还会有先入为主的观念和偏见,这可能会导致他们采取非理性的行动。例如,考虑框架问题,它涉及概率的表示方式。伦敦地铁最近的一条标语提供了一个框定的例子,99%的年轻人没有犯罪,也可以用1%的年轻人犯罪来形容。在创建此统计数据的简单条形图时,您必须选择条形图应该表示99%还是1%,并且边框的选择将影响查看该图形的用户。在这种情况下,由100个图标组成的图标数组(带有一个独特的图标)更合适,因为它包括所有可能的结果,并赋予它们相同的权重。理解不确定性有一个探索框架的互动工具。
计算能力和互联网的进步导致了数据的图形表示或信息图表的爆炸性增长。公众可以获得大量的在线数据,他们可以创建可视化并立即以巨大的规模传播它们。这些可视化不需要是静态的;它们可以是动态的和互动的,这打开了一个充满了以前无法想象的机会的世界(既有坏处,也有好处)。本·弗莱(Ben Fry)和戴夫·麦克坎德利斯(Dave McCandless)等设计师以及“纽约时报”(New York Times)和“卫报”(The Guardian)等报纸在可视化数据方面走在了前列。Protovis和D3提供了创建您自己的可视化效果的工具,许多眼睛和画面公众在收到数据后会自动生成统计图形。
图9:文字云(左)和树形图(右)代表了2011年温布尔登网球公开赛男子单打锦标赛前24名男子网球选手获胜的概率。
用于生成图9的数据与用于生成图6的数据(取自William Hill)相同,只是这一次我们使用的是前24名玩家,而不是前10名。这些图形是通过将William Hill的数据输入到多只眼睛中,然后对输出进行修饰而创建的。单词cloud的字体大小与玩家赢得冠军的机会成正比。以这种方式使用单词云的一个缺点是,您只看到不同参与者的概率如何比较;您看不到概率的实际值。而且,长词比短词获得更多的空间!在树形图中,块的面积表示该玩家获胜的概率。可以通过用每个块表示的概率来标记每个块来改进该树映射。
交互式图形在可视化概率和可视化数据方面具有巨大的潜力。汉斯·罗斯林(Hans Rosling)现在著名的Gapminder很好地处理了复杂的数据集,当伴随着叙事时,它特别有启发性。理解不确定性有多种处理概率的交互工具。一般来说,交互式图形鼓励用户主动而不是被动地参与可视化,这有助于理解和保持。工具提示、超链接和其他动态功能可以丰富交互式图形,并帮助它们适应用户首选项。美国科学与健康委员会已经创建了一个称为Risketer的交互式工具,如图10所示,其中包括许多这些功能。它描述了美国的死亡原因,因为相关的概率很小,所以有一个缩放设施,它
随着计算和信息图表的这些令人兴奋的发展,带来了巨大的创造力潜力和垃圾的巨大潜力,搜索在线文献你会发现两者都有很多。在设计图形来传达概率方面没有硬性规定,但如果你牢记观众的需求和能力,没有偏见地清晰地呈现你的信息,使用叙事,并通过实验来发展,那么你的可视化就有更好的成功机会。
有关可视化概率的更多信息,请参见David Spiegelhalter、Mike Pearson和Ian Short在“科学”第333卷上发表的“可视化未来的不确定性”。您可以通过点击了解不确定性的链接,在不订阅“科学”的情况下访问这篇论文。
伊恩·肖特是开放大学的数学讲师。他的数学兴趣包括复数分析、连分式、动力系统、双曲几何和不确定性。
Mike Pearson是负责maths.org网站的技术极客,他对使用可视化和动画交流数学和统计数据很感兴趣。他曾经是Plus的维护者,但现在更多地参与到我们的姊妹网站NRICH和理解不确定性网站中。