较少散乱的散点图

2020-10-11 18:10:05

散点图。你可能不知道他们的名字,但如果你在网上花10分钟以上,你会发现他们无处不在。它们在新闻文章中很受欢迎,在数据科学界也很受欢迎,也许最关键的是,它们在互联网上传播了关于煎饼消化质量的模因。

通过将数据描述为两个轴上的大量点,散点图在可视化趋势、相关性和异常方面非常有效。但是,将它们用于大型数据集通常会导致重叠的点,从而使它们或多或少不可读。

麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员表示,他们已经用一种新的开源系统解决了这个问题,该系统可以基于拥有超过数十亿个不同数据点的大规模数据集创建交互式散点图。

这个名为“Kyrix-S”的系统有一个界面,允许用户在散点图周围平移、缩放和跳跃,就像他们在谷歌地图上查看方向一样。与为大型数据集开发的其他系统通常侧重于非常具体的应用程序不同,Kyrix-S具有足够的通用性,可用于广泛的可视化样式,包括热图、饼图和雷达样式的图形。(该团队显示,与类似的最先进的创作系统相比,该系统允许用户使用800%的代码创建可视化效果。)。

用户只需编写几十行JSON(一种人类可读的文本格式)就可以生成散点图。

首席开发人员陶文波(音译)是麻省理工学院CSAIL的博士生,他给出了一个静态的纽约时报散点图的例子(见下图),他说通过Kyrix-S这样的系统使其具有交互性将会得到改善。

“在这些散点图中,你可以看到总体趋势和异常值,但重叠图和静态图的性质限制了用户与图表互动的能力,”陶说。

相比之下,Kyrix-S可以生成一个版本(下图),将数据放在几个缩放级别中,从而实现与每个县的交互。为了避免重叠,Kyrix-S的散点图也只显示最重要的例子,比如人口最多的县。

目前,数据文明2.0正在使用Kyrix-S,这是麻省理工学院开发的一个数据集成平台。早期的版本也被用来帮助马萨诸塞州总医院分析一个海量的大脑活动数据集(EEG),它的输入速度为30TB-相当于超过5万个小时的数字音乐。(该研究的目标是在给定一系列2秒的脑电图片段的情况下,训练一个预测癫痫发作的模型。)。

展望未来,研究人员将对Kyrix-S进行改造,使其成为图形用户界面的一部分。他们还计划添加功能,以便系统可以处理不断更新的数据。

陶渊明与麻省理工学院兼职教授迈克·斯通布雷克、研究员侯新丽和亚当·萨、莱拉尼战役13、博士17,以及塔夫茨大学的Remco Chang教授一起写了一篇关于Kyrix-S的论文。它将在10月25日IEEE的VIS数据可视化会议上进行虚拟展示。