要知道,但不能理解:大卫·温伯格谈科学和大数据(2012)

2020-08-17 19:45:08

大卫·温伯格(David Weinberger)在他的新书“大到不知道”(Too Big To Know)的编辑节选中解释了处理复杂现象所需的海量数据是如何超出任何单一大脑的理解能力的,然而网络科学仍在继续。

托马斯·杰斐逊(Thomas Jefferson)和乔治·华盛顿(George Washington)记录了每天的天气观测,但他们没有按小时或按分钟记录。他们不仅有其他事情要做,这样的数据似乎也没什么用处。即使在电报的发明实现了天气数据的集中化之后,1849年从史密森学会接收气象仪器的150名志愿者仍然每天只报告一次。现在,来自环绕地球的卫星、海洋中浮动的浮标和热带雨林中支持Wi-Fi的传感器的气候数据确实无法测量,源源不断。我们正在测量温度、降雨量、风速、二氧化碳水平和太阳风的压力脉冲。一旦我们可以记录这些数据,一旦我们可以用计算机处理它,一旦我们可以将数据流和数据处理器与网络连接起来,所有这些数据和更多的数据就变得值得记录了。

我们如何才能理解那些太大而无法理解的科学课题呢?简短的答案是:通过改变科学认识某件事的含义。

这不是第一次了。例如,当弗朗西斯·培根爵士(Sir Francis Bacon)说,对世界的认识应该建立在经过仔细核实的关于世界的事实的基础上时,他不仅仅是给了我们一种获得老式知识的新方法。他把知识重新定义为以事实为基础的理论。网络时代正在带来同样规模的重新定义。科学知识正呈现出其新媒介的特性,变得像它所生活的网络一样。

在这篇摘录自我的新书“大到不能知道”中,我们将看看知识网络的一个关键属性:庞大。

1963年,梅奥诊所(Mayo Clinic)的伯纳德·K·福舍尔(Bernard K.Forscher)在一封现在很有名的信中抱怨说,科学家们创造了太多的事实。这封名为“砖厂里的混乱”的信警告说,新一代科学家忙于大量炮制砖块--事实--而不考虑它们是如何结合在一起的。Forscher担心制砖本身已经成为一种目的。就这样,这块土地碰巧被砖块淹没了。..。要找到合适的砖块来完成一项任务变得很困难,因为人们必须在这么多的砖块中狩猎。..。建造一座有用的建筑物变得很困难,因为地基一看得见,就埋在乱七八糟的砖块的雪崩之下。

如果科学在1963年看起来像一个混乱的砖场,Forscher博士会坐下来哭泣,如果他看到GBIF.org上的全球生物多样性信息设施。在过去的几年里,GBIF收集了数以千计的关于我们星球上生命分布的事实砖,从波兰国家公共卫生研究所的细菌收集到南极洲韦斯特福德山的韦德尔海豹普查。GBIF.org被设计成Forscher博士痛惜的那种砖场--在没有假设、理论或大厦的情况下展示信息--只不过规模要大得多,因为好医生无法预见砖场的联网。

事实上,基于事实的网络化砖厂是一个成长型行业。例如,在ProteomeCommons.org上,你可以找到各种生物体特有的蛋白质信息。Proteome Commons是一名研究生的独立项目,它提供了近1300万个数据文件,总共有12.6万亿字节的信息。这些数据来自世界各地的科学家,每个人都可以免费获得。斯隆数字天空调查(Sloan Digital Sky Survey)--以绘制宇宙为主题--一直在收集并发布从世界各地25个机构收集的天空地图。经过八年的工作,它的第一次调查于2008年完成,公布了大约2.3亿个天体的信息,其中包括93万个星系;每个星系包含数百万颗恒星,所以这个砖场的大小可能会增长到我们说不出数字的地步。最著名的新数据砖厂,人类基因组计划,在2001年完成了人类物种的整个基因蓝图的绘制;从数量上说,它已经被国际核苷酸序列数据库合作项目超过,该合作项目截至2009年5月已经收集了2500亿条基因数据。

科学数据增加到现在看起来像19世纪的砖厂比喻的程度,有三个基本原因。首先,删除的经济性已经改变。我们过去常常扔掉我们用可悲的旧胶卷相机拍摄的大部分照片,因为尽管它们的制作成本比现在的数字图像高得多,但相册价格昂贵,占用空间,而且需要我们投入相当多的时间来决定哪些照片会被选中。现在,将它们全部存储在我们的硬盘上(或存储在某个网站上)通常比清理它们要便宜得多。

其次,分享的经济学已经发生了变化。国会图书馆有数千万件藏品,因为物理学使展示和保存实物变得困难,更不用说共享实物了。互联网让分享我们数字地下室里的东西变得容易得多。当数据集如此之大,以至于即使对于互联网来说,它们也变得笨拙时,创新者就会被激励去发明新的共享形式。例如,ProteomeCommons背后的系统Secche创建了自己的技术协议,用于在网络上共享数兆字节的数据,因此,单个来源不需要负责输出所有信息;共享过程本身就是跨网络共享的。新的关联数据格式使得将数据打包成可以找到和重用的小块变得比以往任何时候都更容易。通过网络访问和共享的能力进一步增强了删除的新经济性;原本不值得存储的数据具有新的潜在价值,因为人们可以找到并共享它们。

第三,计算机变得成倍地智能。约翰·威尔班克斯是知识共享中心(前身为科学共享中心)负责科学的副总裁,他指出,过去绘制一个基因图谱不需要一年的时间。现在,您可以在台式计算机上一天完成3万个任务。一台价值2000美元的微阵列机器现在可以让你看到人类基因组随时间的变化。在第一个被诊断出感染H1N1猪流感病毒的人的几天内,由1,699个碱基组成的H1序列被分析并提交给了一个全球储存库。即使在台式机上也可以使用的处理能力为存储和共享的数据增加了更多潜在价值。

砖场已经长到了银河系的大小,但对Forscher博士来说,消息变得更糟了。这不仅仅是因为有太多的砖块,而没有足够的建筑物理论。相反,数据星系的创建将我们带入了有时过于丰富和复杂而无法归结为理论的科学领域。随着科学变得太大而不能为人所知,我们对知道到底意味着什么采取了不同的观点。

例如,生物体的生物系统是超出想象的复杂系统。即使是最简单的生命元素,细胞本身也是一个系统。一门名为系统生物学的新科学研究外界刺激通过细胞膜发送信号的方式。有些刺激会引起相对简单的反应,但另一些则会引起级联反应。这些信号不能相互孤立地理解。即使是单个细胞的相互作用的整体情况,也超出了由这些细胞组成的人类所能理解的范围。2002年,当北野博明(Hiroaki Kitano)为“科学”(Science)杂志写了一篇关于系统生物学的封面故事时--这是对这个年轻领域日益增长的重要性的正式认可--他说:今天,这一领域重新获得兴趣的主要原因是分子生物学的进步……。使我们能够收集有关系统性能的全面数据集,并获得有关潜在分子的信息。当然,我们能够收集全面数据集的唯一原因是计算机变得如此庞大和强大。在图书时代,系统生物学根本是不可能的。

获得所有这些数据的结果是一门新的科学,它不仅能够研究细胞或有机体孤立部分的特征(引用北野的话),而且能够研究在部分水平上没有出现的特性。例如,生物体最显著的特征之一就是我们是健壮的--我们的身体一次又一次地反弹,当然,直到它们不再健壮为止。健壮是一个系统的属性,而不是它的单个元素的属性,其中一些元素可能是不健壮的,就像蚂蚁保护它们的女王一样,可能会牺牲自己,这样整个系统才能生存下来。事实上,生命本身就是一个系统的属性。

问题--或者至少是变化--是我们人类即使像一个简单的细胞一样复杂也不能理解系统。这并不是在等待某种优雅的理论,这些理论将迅速将所有细节放在适当的位置。这个理论已经很成熟了:蜂窝系统由一组可以被认为是信号和响应的详细的交互作用组成。但这些互动在数量和复杂性上都超过了人脑理解它们的能力。

这标志着科学道路上的一个相当大的转折。对于400年前的弗朗西斯·培根爵士、150年前的达尔文爵士、50年前的伯纳德·福舍尔爵士来说,科学的目的是构建既有事实支持又能解释事实的理论。事实是关于特定事物的,而知识(人们认为)应该具有共性。共性知识的每一次进步都让我们更接近实现造物主为我们设定的命运。

当然,这一战略也有实际的一面。共性要比特殊少得多,如果你知道共性,你通常可以弄清楚其中的细节:如果你知道解释行星轨道的普遍定理,你就可以计算出火星在地球上任何一天的天空中的位置。在我们更广泛的传统战略中,通过将知识减少到我们的大脑和技术能够处理的范围,来应对一个太大而不能认识的世界,瞄准共性是一种简化的策略。

因此,我们凝视着数字表格,直到它们的简单模式变得清晰起来。约翰尼斯·开普勒检查了他的老板第谷·布拉赫精心绘制的星图,直到1605年他意识到,如果行星以椭圆而不是完美的圆形绕太阳运行,这一切都是有道理的。350年后,詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)凝视着dna的x射线,直到他们意识到,如果分子是双螺旋,那么关于其原子间距离的数据就有了简单的意义。有了这些发现,数据从令人困惑的随机转变为揭示了我们所理解的秩序:哦,轨道是椭圆形的!哦,分子是双螺旋的!

有了新的基于数据库的科学,复杂的事情往往变得足够简单,让我们无法理解。这个模型不会简化为一个方程,然后让我们扔掉这个模型。您必须运行模拟以查看会出现什么情况。例如,一个计算机模型显示,在一个狭小的空间里,逃离威胁的人们的运动--他们处于恐慌之中--显示,在出口门前大约一米处放置一根柱子,稍微偏向两边,实际上会增加门外的人流。为什么?可能有一种理论,也可能只是一种紧急性质。我们可以攀登复杂的阶梯,从派对游戏到人类,只有一个目的,就是走出一座着火的建筑,再到拥有更多不同和不断变化的动机的更多人的现象,比如市场。我们可以对它们进行建模,也许不需要理解它们就可以知道它们是如何工作的。它们是如此复杂,以至于只有我们的人工大脑才能管理涉及到的数据量和交互数量。

同样的道理也适用于纯物理相互作用的模型,无论它们是由细胞、天气模式还是尘埃组成的。例如,康奈尔大学(Cornell University)的霍德·利普森(Hod Lipson)和迈克尔·施密特(Michael Schmidt)设计了尤里卡(Eureqa)计算机程序,以找出有意义的大量数据,这些数据让人类感到困惑,包括细胞信号和可卡因对白细胞的影响。Eureqa寻找可能的方程来解释一些可能的数据片段之间的关系,然后调整和测试这些方程,看看结果是否更准确地符合数据。它不断迭代,直到有一个方程式起作用。

德克萨斯大学西南医学中心的Gurol Suel博士使用Eureqa试图找出是什么导致单一细菌的数千种不同元素之间的波动。在仔细研究了Suel提供的大量数据后,Eureqa得出了两个表示细胞内常数的方程式。苏尔有他的答案。他就是不懂,也不认为任何人都懂。这有点像爱因斯坦梦见了e=mc2,我们证实它是有效的,但是没有人知道c代表什么。

没有人说有一个人类无法理解的答案是非常令人满意的。我们想要尤里卡,而不仅仅是尤里卡。在某些情况下,我们无疑会理解我们的软件产生的预言方程。另一方面,其中一位使用尤里卡的科学家,生物物理学家约翰·维克斯沃告诉“连线”的记者:生物学是难以置信的复杂,太复杂了,人们无法理解其复杂性的解决方案。这个问题的解决方案是尤里卡项目。世界的复杂性可能只是超出了我们大脑理解它的能力。

基于模型的认知有许多有据可查的困难,特别是当我们试图预测受历史变幻莫测影响的现实世界事件时;那个时代的生态的白垩纪时代的模型不会在其数据中包括一颗巨大的小行星的到来,也没有人期待会有一只黑天鹅。然而,模型可以具有科学假说所要求的预测能力。我们有了一种新的认知形式。

这一新知识不仅需要巨型计算机,还需要一个网络来连接它们,为它们提供食物,并使它们的工作变得可访问。它存在于网络层面,而不是存在于个人的头脑中。

我们想听听您对这篇文章的看法。向编辑提交一封信,或写信给[email protected]

是哈佛大学伯克曼中心的高级研究员。他是几本书的作者,包括最近出版的“大到不知道”。