假设是一种负担

2020-11-06 04:28:41

悉达多说:‘当有人寻找的时候,他的眼睛很容易只看到他所寻找的东西,他什么也找不到,什么也不能吸收。[.]。追求意味着:有一个目标。但寻找意味着:自由、开放、没有目标。“赫尔曼·黑塞(Hermann Hesse)。

有一个假设是有隐性成本的。它产生于夜间科学和日间科学之间的关系,这是两种截然不同的活动模式,在这两种模式中,科学思想分别被产生和检验[1,2]。有了一个假设,白天科学令人印象深刻的力量就被释放出来,指导我们设计测试,估计参数,并在假设没有通过测试的情况下抛出它。但当我们分析实验结果时,我们头脑中对特定假设的关注可能会阻止我们探索数据的其他方面,从而有效地蒙蔽了我们对新想法的认识。这样一来,假设就成了任何夜间科学探索的累赘。在现代生物数据集的背景下,我们的创造力受到的相应限制尤其令人担忧,这些限制是在假设驱动的研究中自我强加的,这些数据集通常是巨大的,可能包含多个不同的、潜在令人兴奋的发现的线索。然而,夜科学也有其自身的缺陷,会产生许多虚假的关系和错误的假设。幸运的是,这些都被日光科学揭露出来,强调了这两种模式的互补性,各自克服了对方的缺点。

我们中的许多人都记得著名的选择性注意实验,在实验中,受试者观看了一段学生互相传球的视频[3,4]。如果您还没有看过,我们建议您在继续阅读之前先看一看[5]。当你观看两支球队的比赛时,你的任务是数一数穿白色衣服的球队传球的次数。大约过半的时候,一个装扮成大猩猩的人进入了前台。这只大猩猩在中间停了下来,用拳头拍打着胸部,然后离开到画面的另一边。令人惊讶的是,我们中有一半人完全错过了大猩猩,因为我们专注于数传球,尽管当我们简单地观看没有作业的剪辑时,几乎没有人会忽视这一点。

我们想知道,当我们分析数据集时,是否会发生类似的过程。对某一特定假设的心理关注会阻止我们做出发现吗?为了测试这一点,我们制作了一个数据集,并要求学生对其进行分析[6]。我们将数据集描述为包含1786人的身体质量指数(BMI),以及他们每个人在特定一天所走的步数,分成两个文件:一个用于男性,一个用于女性(图1a)。学生们被分成两组。第一组的学生被要求考虑三个具体的假设:(I)男性和女性的平均步数在统计学上存在显著差异,(Ii)女性的步数与BMI呈负相关,(Iii)男性的这种相关性是正的。他们还被问及是否可以从数据集中得出其他结论。在第二组,“无假设”组,学生们被简单地问到:你从数据集中得出了什么结论?

这是一个人造数据集,提供给有或没有明确假设的学生,关于体重指数和特定一天采取的步数之间的关系,无论是男性还是女性。B数据集的曲线图。C发现大猩猩或未发现大猩猩的两组学生(“有假设”和“无假设”)的列联表[6]。

数据集中最值得注意的“发现”是,如果你简单地画出步数与体重指数的关系,你会看到一只大猩猩向你招手的图像(图1b)。虽然我们向学生传授可视化的好处,但回答特定的假设驱动的问题并不需要绘制数据图。我们发现,在特定假设的驱使下,学生往往会跳过这一简单的步骤,对数据进行更广泛的探索。事实上,总体而言,没有特定假设的学生在分析这个数据集时发现大猩猩的可能性几乎是其他学生的五倍(优势比 = 4.8P = 0.034,N = 33,费舍尔精确测试;图1c)。至少在这种情况下,这一假设确实被证明是一个重大的负担。

我们通常以检验某一特定假设为既定目标来获取数据。但正如我们在大猩猩实验中看到的那样,一旦我们进入假设检验的心理模式,我们很可能会错过其他有趣的现象。为了解释这一点,我们必须有意识地采取一种不同的心态-一种探索的心态,即我们从尽可能多的角度来看待数据。在这种模式下,我们对数据采取了一种玩耍的方式,将所有东西都与其他东西进行比较。我们变成了探险家,在开始朝一个方向出发时,构建了一张数据地图,在十字路口切换方向,跌跌撞撞地进入了意想不到的地区。

从本质上讲,夜精灵

“相关性不是因果关系”--这句格言也许所有科学家在他们的职业生涯中至少听过一次--警告说,不要过于看重两个变量之间的协变。毫无疑问,两个特征之间的相关性不足以推断因果关系。但因果关系隐含着某种形式的协变,因此,找到以前隐藏的关联可能是发现新事物的第一次机会。然后,我们可能会认为数据探索是相关性和模式的生成器,这些相关性和模式可以在以后进行因果关系测试。

人类智力的主要促进者之一是我们的大脑能够很容易地找到模式和联系--迈克尔·谢尔默称之为模式特性[8]。模式性有助于我们产生新的夜间科学想法;它是许多发现的种子。另一方面,当我们错误地推断真正独立的事物之间的关系时,模式特性使我们很容易被随机性愚弄[9](称为幻觉)。显然,在无人引导的探索过程中会产生错误的结果,而这一代错误的开始是夜间科学自身的责任。

有一天,科学缓和了这种倾向。从某种意义上说,相关性是夜间科学的领域,而因果关系则是白天科学的固化。日间科学是房间里的成年人,严谨地检验假说。但是,尽管有其强大的力量,当今的科学模式从一开始就不能顺从于产生想法。只有夜科学领域,它缺乏具体的假设,使我们在白天的科学中变得盲目,允许我们以探索性的方式自由思考。科学依赖于这一点,在白天和黑夜之间来回,彼此克服对方的缺点;我们可以让自己在夜间科学中如此自由地探索,因为我们相信自己稍后会在白天科学中检查产生的假设。

在许多科学界,对一个项目最具谴责的判断之一就是给它贴上“钓鱼探险”的标签:对数据的探索,甚至连假说的伪装都没有。但正如我们上面所说的,这种以假设为中心的批评忽略了一个关键点。这些发现不仅出乎意料,而且在没有数据的情况下也是无法发现的。只要数据集被精心设计成包含与特定领域相关的丰富信息,最初没有假设的夜间科学探索是一种系统地产生假设的方式,这种方式不仅强大,而且在我们看来,也是美丽的。

我们读到的许多发现都来自最初被设计为钓鱼探险的项目,或者在最初的假设不得不放弃后变成了这样的项目。但我们很少听说这方面的历史,因为一个关于逻辑上提出的假设,然后在严谨的日常科学中进行检验的故事会产生更好的故事,因为这些故事是编辑和评论家喜欢读的。我们从许多重要同事的作品传闻中了解到这一点,但我们最了解这一点的是我们自己的出版物。例如,Tim Pang组装了一个连接大肠杆菌分支进化过程中的基因型和表型的数据集,通过逐步扩大生态位来寻找对我们的细菌进化假说的进一步支持[10]。但通过分析数据,我们发现了一些更有趣的事情[11]:在大肠杆菌的历史上,3000多个可检测到的新陈代谢创新中,没有一个需要超过一个水平的基因转移!另一项由当时的研究生米哈尔·莱文(Michal Levin)领导的项目涉及收集5种蠕虫胚胎发生的基因表达数据集,这些数据集是基于可能揭示基因调控网络的想法而组装起来的。相反,通过对数据集的分析,我们发现了一个独特的发育阶段,我们推测这是线虫的系统发育阶段[12]。

我们从几十年的探索性数据分析中学到了一件事:不要放弃数据集。如果它不支持你最初的假设,它很可能包含另一种甚至更有趣的现象的暗示。如果数据支持你最初的假设,仍然要继续探索更远的地方。如果数据集已经被很好地设计和组装,可能还会有更多的发现。不能指望只看一眼就能看到这些。它们需要时间才能展现出来。这并没有得到很好的理解,但事实是,一个人永远不会真正完成对数据集的分析。你只是决定在某个时候停下来继续前进,留下一些未被发现的东西。因为夜间科学需要高度创造性的状态,所以这一过程反映了诗人保罗·瓦莱里(Paul Valéry)在1933年所描述的艺术中的情况也就不足为奇了:“Un ouvge n‘est jais achevé。”。。Mais forteonné“(”作品永远不会完成,只会被遗弃“)。

根据本文的前提,我们当然不得不探索我们自己的大猩猩实验数据集,而不是我们最初的假设??假设可能会阻止发现。

2.雅各布·F·《内心的雕像:自传》。纽约:冷泉港实验室出版社;1988年。

3.西蒙斯DJ,查布里斯。我们中间的大猩猩:对动态事件的持续疏忽失明。感知。1999年;28:1059-74。

4.查布里斯·C、西蒙斯·D·看不见的大猩猩:还有其他一些我们的直觉欺骗我们的方式。《纽约:兰登书屋》;2009年出版。

7.Schultz G.Feier der Deutschen Chemischen Gesellschaft zu Ehren 8月Kekulé‘s Ber Dtsch Chem ges.。1890年;23:1265-312。

9.Taleb NN.。被随机性愚弄:机遇在生活和市场中的隐藏作用。《纽约:兰登书屋》;2005年出版。

10.Szappanos B,Fritzemeier J,CsörgőB等人。通过循序渐进的新陈代谢生态位扩展实现复杂创新的适应性进化。纳特社区。2016年;7:11607。

11.彭泰(Pang Ty),MJ勒彻(Lercher MJ)。在大肠杆菌的进化过程中,3323项代谢创新中的每一项都是通过单个DNA片段的水平转移而产生的。《美国科学院学报》2019;116:187-92。

12.Levin M,Hashimshony T,Wagner F,Yanai I.发育里程碑点缀着线虫胚胎中的基因表达。发展细胞。2012年;22:1101-8。

我们感谢杜塞尔多夫海因里希海涅大学统计数据分析课程的学生。我们感谢Dalia Barkley、Anjali Rao、Leon Anavy、Gustavo Starvaggi Franca、Veronica Maurino和Michal Gilon-Yanai的批判性阅读和评论。

开放获取本文遵循知识共享署名4.0国际许可,该许可允许以任何媒介或格式使用、共享、改编、分发和复制,只要您给予原始作者和来源适当的信用,提供到知识共享许可的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包括在文章的知识共享许可中,除非在材料的信用额度中另有说明。如果材料不包括在该文章的知识共享许可中,并且您的预期用途不是法定法规所允许的,或者超出了允许的用途,您将需要直接从版权持有者那里获得许可。?要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.。知识共享公共领域奉献免责声明(http://creativecommons.org/publicdomain/zero/1.0/))适用于本文中提供的数据,除非该数据的信用额度另有说明。