你的图表是侦探小说还是警方报告?

2020-08-28 17:22:47

数据的现代统计显示-例如,用于检查相关性的散点图网格-成功的原因是透明,并允许数据中的趋势突出。相反,矛盾的是,经典的数据可视化往往因为有点不透明而成功:这是一个读者可以猜出的谜题。

考虑一下信息设计师威尔·伯廷(Will Burtin)在1951年创建的可视化,总结了三种抗生素-青霉素、新霉素和链霉素-在治疗13种细菌方面的有效性。细菌种类呈圆形排列,每个细菌感染有三个条形,代表治疗它所需的每种抗生素的量。刻度的反转意味着更长的条形代表更有效的抗生素,与自然解释的更大更好,而在条形后面的阴影根据细菌是阳性还是阴性将细菌整齐地组织成两组。

在科学领域,我们对意想不到的辉煌感到高兴,并立即尝试将其系统化。可视化也是如此:当我们看到一个新的、具有启发性的图表时,我们想要把它拆开,看看它是如何工作的。伯廷的日出设计立即吸引了我们的注意,激起了我们的好奇心,想要了解其曼陀罗般的形状背后的意图。我们觉得有必要参与,甚至庆祝它所暗示的科学发现。圆形设计也碰巧使找到治疗任何特定感染的最佳抗生素变得更加困难,或者更难察觉细菌和治疗之间的关系中的任何结构。但对于大多数观众来说,这些限制只有在以后才会变得明显,如果他们曾经这样做过的话。

我们可以将这种经历比作叙事,许多伟大的(或次要的)艺术作品都是通过一个镜头来解读的。叙事涉及情节与视角、事件与解读、故事情节与人物之间的相互作用。同样,科学实践可以被视为数据和模型之间的相互作用。数据就是事实。模特是人物,他们的视角和假设塑造了我们从故事中吸取的东西。在最简单的层面上,如何可视化数据结构的选择是通过将某些比较提升到其他比较来提高查看者对这些数据的体验。这是一种性格的选择,一种模式的选择。

安德鲁·吉尔曼是哥伦比亚大学统计学和政治学教授。他的最新著作是回归和其他故事。杰西卡·霍尔曼(Jessica Hullman)是西北大学计算机科学和新闻学副教授。在Twitter上关注她,邮箱是@jessicaHullman。

将可视化设计理解为模型选择的一种形式,并强调某些比较,这可能非常有用。它帮助我们对图形显示的现有可视化和方法进行反向工程。它还可以帮助我们开发更有效的可视化效果,这样我们就可以更好地讲述我们的故事。

伯廷的图表所暗示的比较集中在一个简单的问题上,也许并不令人惊讶,因为当时围绕抗生素作为“特效药”而激动不已:它们可以治疗哪些细菌?当我们扫描圆圈的周长时,通过注意最长条的颜色,我们用这张图来比较抗生素的有效性。为了发现这些有意的比较,观察者必须积极地参与到一个发现的过程中,这个过程与产生数据的科学家的发现过程一样。

关于不同形式的叙事如何以不同的方式让读者参与的文章已经写了很多,从电影观众相对被动的参与,到观看连续剧的人更积极的参与,再到人们阅读小说的体验,从某种意义上说,他们必须在头脑中创作整个电影。

沿着这个连续体,数据可视化可能会落在不同的地方。有些人讲的故事是如此有力和清晰,对观众几乎没有什么要求。其他人的要求要高得多。人们可以将其与观众或多或少可以接触到的艺术作品进行类比-但不同的是,难以遵循的艺术往往是故意模棱两可的,而具有挑战性的可视化是为了被理解。从这个意义上说,可视化更像是电子游戏,而不是艺术或音乐。他们引用了一种反复尝试的经验,这让人想起教育心理学家研究的“主动学习”方法。

与视频游戏一样,更非常规的可视化效果往往是最具吸引力的,甚至对广大观众也是如此。不熟悉的东西更具挑战性;美学选择,比如使用令人愉悦的形状和对称性,可以帮助诱使观赏者尝试并解决难题。

然而,引人入胜的可视化并不需要像伯廷的那样在视觉上充满异国情调。考虑一下最近一个有影响力的可视化,“展平曲线”图表。这张图用一个简单的谜题吸引了读者的注意:一条水平线意味着一个标准;作为观众,我们的目标是发现符合这个标准的曲线和超过这个标准的曲线之间的差异。在此过程中,锁定的论据作为图中预期的紧急消息出现。虽然科学家可能会对可视化未能传达这条线的位置和两条曲线的形状被估计得多么不精确提出异议,但它的制作者准确地讲述了他们想要的叙述。在让美国人看到他们行动中最关键的结果方面,没有其他流通媒体能如此有效地让美国人大开眼界。

另一种流行的显示大流行影响的方式是使用移动的点来模拟传染病的传播。“华盛顿邮报”的哈里·史蒂文斯(Harry Stevens)的一部动画展示了疫情在不同条件下可能会如何发展,从没有预防措施(“人人都可以自由行动”)到“广泛的距离”。每次模拟运行时,其正上方的堆叠面积图将填充与每个时间点的感染、未感染和康复人数成比例的颜色。看仿真实时“构建”面积图有点像看某人玩拼图。然而,对于拼图游戏,它创造的最终图像与一个人解开它的过程没有任何关系。可视化难题是不同的:只有当一个人理解数据到图像的转换时,它才有意义。

令人兴奋和非常规的东西也是我们期望的函数。据说音乐之所以引人注目,是因为它平衡了期待和惊喜:当音符让我们措手不及时,它是有趣的,但随着它的发展,它在作品的更大模式中也应该是有意义的。讲故事也是如此:意想不到的刺激只能通过参考(和混淆)一些先前存在的规范来实现。科学也是这样运作的,它是一个不断变化的猜想、反驳和革命的过程--一个充满曲折的故事。

然而,在科学领域,观众希望先听到背景知识,这样就可以在混淆之前把期望说清楚。对于可视化,这个过程通常是隐含的。期望首先通过设计师对模型的选择而产生,其次通过观赏者自己对他们所看到的图案的意义的解释而产生。

设计者对模型的选择可以反映在他们选择强调的数据集的各个方面,以及他们如何描述它们。用直方图表示数据会引起与熟悉的参考形状的比较,比如在统计学的许多应用中出现的对称钟形曲线。人类的视觉系统适应于检测与对称性的偏差,使图形成为从模型中发现差异的极好手段。

通过选择要包含哪些数据以及如何转换这些数据等,可视化还可以塑造观众对趋势或差异的预期。想一想每个国家随着时间的推移产生的新冠肺炎病例或死亡的许多折线图。无论是否转换数据(例如,通过取对数),轴的范围和所包括的国家/地区的子集将结合在一起,以创建数据解释所依据的空间和时间上下文。

最有效的图表既能预测预期,又能塑造预期。不管图表有多复杂,一般原理都是一样的。我们制作图表有两个原因:学习意想不到的东西(统计学术语中的“探索性数据分析”)和与他人交流研究结果。探索性数据分析几乎是基于模型的定义--只有通过预期才能定义“意想不到的”。交流也会起到预期的作用,因为它的目标是说一些新的东西,或者传递一条“新闻”。尽管可视化发生在空间中,而音乐和故事在时间中展开,但它们都依赖于同样的动力,期望和惊喜之间的平衡。即使是最传统和最无聊的可视化手段--例如民意调查图表--也必须暗示,至少有可能揭示一些不可预见的事情。

在Burtin制作他的图表大约30年后,他所可视化的数据集将发生变化。到1984年,科学家们意识到肺炎双球菌(显示在大约11点)在对测试的抗生素的反应上与链球菌非常相似,而粪链球菌(在7点到8点之间)的反应与其他链球菌大不相同,因此科学家们对其中两种细菌进行了重新分类。尽管这幅图在当时受到了钦佩,但这些错误不知何故逃过了观众的眼帘。

一个反事实的问题自然会出现:如果伯廷为数据集构建了一个更直接的统计图表-例如分组条形图-这些科学错误是否会更早被发现?

这是统计学家霍华德·韦纳和肖恩·莱森暗示的问题,他们在2009年出版了一份更传统的散点图,首先由劳伦斯·菲纳和克里斯蒂安·瑞安创建,以说明这一点。Burtin选择强调抗生素有效性的比较,而新的设计优先考虑细菌之间的比较。基于链霉素值与新霉素值的密切对应,省略了链霉素值。同一属的细菌有相同的颜色。这两种贴错标签的细菌通过颜色的并列和与其他细菌的接近而成为嫌疑人:为什么粪便不在左上角与其他链球菌一起?肺炎杆菌在那里做什么呢?

人们很容易称伯廷的图形是一个失误,这种视觉效果如此迷恋于形状和颜色的令人愉悦的对比,以至于忽略了数据中更关键的变化。然而,科学进步不仅发生在试错中,也发生在理论和经验主义的来回中,还取决于科学家打动他人心灵的能力-与决策者和公众沟通的能力。伯廷的展示可能是不完整的,但菲纳和瑞安的展示也不完整。这就像把侦探小说与警方报告进行比较:他们可能讲述了相同的事件,但它们服务于不同的目的。

一个可视化能同时完成两种功能吗?科学家们被简约所吸引,这是一种优雅的解决方案,达到了所有的目标。另一方面,可视化设计充满了权衡取舍。将数据暴露给我们,最大限度地减少我们的努力的图形,很少会是一开始让我们困惑的图形,这会唤起我们的好奇心。

相反,那些希望交流数据的人应该考虑他们的意图,并意识到他们优先考虑的是什么,丢失的是什么。更好的是,他们可以尝试拥有一切-侦探故事和警方报告,包含在一个单一的互动在线演示中。我们称之为“点击直达解决方案”:观众一开始看到的是Burtin品种的有趣的可视化效果;然后他们可以点击进入查看一个或多个统计图;再次点击可以找到包含所有数据及其解释的电子表格和代码簿。

这与我们将图形作为比较的想法联系在一起。通过理解任何图形所代表的比较,任何图形的查看和结构都会得到增强。作为科学家,如果我们超越“显示数据”的想法,考虑我们想要呈现的模型,包括我们希望将数据隐含地与之进行比较的引用,那么我们可以绘制出更好的图表。作为科学信息的消费者,我们可以更好地阅读信息图表,因为我们意识到它的功能是通过比较来讲述故事,而比较是通过我们自己的积极参与来展开的。

《连线观点》发表外部撰稿人的文章,代表了广泛的观点。在这里阅读更多的意见,并在这里看到我们的提交指南。提交一篇专栏文章,地址是[email protected]