科学有两个严峻的问题:复制和创新。许多科学发现是不可重现的。也就是说,你不能保证对同一问题的另一项研究或实验也会得到类似的结果。与此同时,科学创新的步伐可能会放缓。
试图解决一个问题会让另一个问题变得更糟吗?许多人认为,试图避免可再生性问题的政策将创造一种抑制创新和发现的紧缩氛围。
事实上,高层政策制定者正是对此感到担忧。2020年初,我和其他著名的慈善家和学者一起参加了白宫关于科学再现性的会议(就在新冠肺炎真正流行之前)。白宫科技政策办公室(White House Office Of Science And Technology Policy)传阅供讨论的一张纸上的一个关键问题是,是否存在权衡:提高重复性的努力是否有可能损害联邦资助研究的创造力和创新?
我不认为可再生性和创新性之间存在矛盾。与人们普遍的看法相反,我们可以同时改进-通过激励失败的结果,以及通过资助旨在驳斥现有教条或将完全背离现有教条的“红色团队”。
不过,首先让我们退一步,简要回顾一下重大科学领域可以更具重现性和创新性的证据。
在过去的几十年里,许多人都写过关于科学不可复制性的文章。但这个问题在2000年代中期变得更加突出,因为斯坦福大学(Stanford)的约翰·约阿尼迪斯(John Ioannidis)发表了一篇很快成为有史以来下载量最高的研究论文:2005年发表的文章“为什么大多数发表的研究结果都是错误的”。(免责声明:他是我工作的阿诺德风险投资公司(Arnold Ventures)的长期受赠人。)。
可以肯定的是,Ioannidis的发现大多是理论上的;他并不是真的重写了“大多数”已发表的研究(即,数千万项研究)。相反,他指出,考虑到大多数研究的开展方式,如果期刊哪怕有一点点偏向积极的结果(他们肯定是这样),那么最终发表的大多数结果将不可避免地是统计上的侥幸或p-hack的结果。
他的理论案例已经被从药物开发到心理学领域的许多实证研究所证实。安进和拜耳等制药公司报告说,他们无法从著名期刊上复制80%以上的实验。引用拜耳的科学家的话说,“我们公司基于令人振奋的公布数据启动的项目,当关键数据无法复制时,往往会导致幻想破灭。”
然后是心理学的重现性项目,这是我们资助的,由我们的开放科学中心资助实施的。该项目在世界各地组织了200多个心理学实验室,系统地重做了100个发表在顶级心理学期刊上的实验。研究发现,只有大约40%可以可靠地复制(另有40%是不确定的,大约20%是决定性的不复制)。据谷歌学者称,自2015年这些结果发表以来,这项研究已经被引用了4400多次。心理学中许多最著名的结果都被证明是不可靠的,而且可能是欺骗性的(比如津巴多的斯坦福监狱实验),最近对这个问题的最好处理是斯图尔特·里奇(Stuart Ritchie)2020年出版的书《科幻小说》(Science Fictions)。
可以肯定的是,这个问题在物理、化学、宇宙学等较难的科学中似乎没有那么严重,这些科学有怀疑、复制甚至使研究人员对自己的结论视而不见的既定传统。重复性和发表偏向问题的大部分似乎存在于社会科学和生物医学领域。在许多这些领域和子领域-例如医学临床试验、高通量生物信息学、神经成像、认知科学、公共卫生和流行病学研究、经济学、政治学、精神病学、教育学、社会学、计算机科学、机器学习和人工智能-发表的文献以太多的假阳性以及很可能被p-hack的结论为特色。这足以让白宫、NIH和NSF的人们担心联邦资助的科学的质量。
与此同时,许多观察家指出了一个完全不同的问题:这些天来,科学变得不那么创新了。(即使它没有,我们也总是可以从更快的创新中受益。)。
在最近的一篇文章中,STRIPE的创始人帕特里克·克里森和理论物理学家迈克尔·尼尔森提出,近年来,每花一美元,科学进步的速度就会放缓。根据对物理、化学和医学领域著名领袖的调查,他们得出结论:“在过去的一个世纪里,我们在科学上投入了大量的时间和金钱,但根据科学家自己的判断,我们正在以几乎不变的速度取得最重要的突破。按美元或人均计算,这表明科学的效率正在大大降低。“。
克里森和尼尔森远非孤军奋战。考恩和索斯伍德争辩说,“有充分的和广泛的证据表明,科学进步的速度确实已经放慢了。”2019年的论文“好主意越来越难找到了吗?”[1]他们试图对“内燃机、航空旅行的速度、太阳能电池板的效率、诺德豪斯(1997)的”光的价格“证据,以及人类基因组的测序进行重复这一分析。”(1)他们试图对“内燃机、航空旅行的速度、太阳能电池板的效率、诺德豪斯(1997)的‘光的价格’证据,以及人类基因组的测序”重复这一分析。但他们无法做到这一点,因为没有准确衡量在这些问题上的研发金额。这篇论文最后预测,“仅仅是为了保持人均GDP的持续增长,美国必须每13年将寻找新想法的研究努力翻一番,以抵消发现新想法的难度增加的影响。”
当然,其中一些评估可能过于悲观。但令人沮丧的是,人们经常听到世界上最具创新精神的科学家哀叹,他们永远不会在今天的学术或资助体系中取得成功,因为他们的工作太突破常规了:
罗杰·科恩伯格(一位诺贝尔获奖生物化学家)在2007年告诉“华盛顿邮报”,如果他在20世纪70年代对DNA的研究“永远不会获得必要的资金”,如果他是在21世纪头10年到来的:“特别是在目前的环境下,资金决定是极端保守的。”如果你提议做的工作几乎不一定会成功,那么它就不会得到资助。“。
据2013年报道,“加州大学伯克利分校分子生物学家兰迪·谢克曼(Randy Schekman)本周与另外两名科学家一起获得了诺贝尔医学奖。但他表示,如果他今天申请拨款,导致他获奖的那种基础科学研究可能永远不会获得资助。
量子计算的先驱大卫·多伊奇(David Deutsch)说,他永远不会拿到他的“第一笔量子计算机研究拨款”。。。在今天的标准下。“。
被命名为希格斯玻色子的诺贝尔奖获得者彼得·希格斯“认为没有一所大学会在今天的学术体系中雇用他,因为他不会被认为是足够‘富有成效’的。。。。“今天我就找不到一份学术工作了。”就这么简单。我认为我不会被认为有足够的生产力。‘“。
当这么多顶尖科学家说,他们自己的工作在目前的体制下永远不会合格时,我们必须对当前的体制进行评估。正如知名科学家所问的那样,“如果所有投资的近99%授予36岁或以上的科学家和工程师,同时强烈倾向于只为安全、无风险的项目提供资金,硅谷会取得多大的成功?”此外,一种常见的抱怨是,“科学家被迫提前数年明确他们打算做什么,并不断地花时间申请非常短的小额拨款”-这几乎不是一个鼓励创新的制度。
简而言之,我们有证据表明,美国的科学资金往往相当温和和递增,过去一些最具创新性的科学永远不会得到今天的官僚机构的资助,科学审查小组由内部人士主导。
因此,科学创新受到威胁。如果爱因斯坦必须驾驭这样一个系统,我们可能从未听说过相对论。即使创新本身没有放缓,我们仍然可以做得更好。
在如何资助联邦研究方面,有很多关于如何提高科学再现性的想法。毕竟,质量控制和保证并不是什么新想法。
例如,我们可以要求公开共享数据和计算机代码,以便其他人可以仔细检查并重新运行。在太多无法列举的案例中,这种重新分析导致了修改、撤回,甚至发现了彻头彻尾的欺诈行为。
下一步,我们可以要求实验和其他实证研究预先登记,这样分析和结果就不太可能在以后被精心挑选。我们已经在医学临床试验中这样做了,一项对联邦赞助的临床试验的审查发现,一旦要求研究人员预先登记他们的研究,阳性结果的比率就会急剧下降。我们可以为科学上的许多其他领域做同样的事情。我们甚至可以更广泛地使用注册报告格式,在这种格式下,期刊甚至在最终结果出来之前就接受一篇文章发表。
如何改革政府资金以促进科技创新就不那么明显了。让我们来做一个思维实验:
想象一下,你是100年前的总统,而不是伍德罗·威尔逊(Woodrow Wilson)。想象一下,一个来自未来的时间旅行精灵告诉你,在接下来的一百年里,将会有数量惊人的发明和科学发现-治疗糖尿病和简单感染,为目前导致许多人死亡或残疾的疾病接种疫苗,数百万人将使用的汽车,将飞越大洋甚至飞向其他星球的机器,电视,潜艇,计算机器,手持电话,核能,将绕地球运行的卫星,遗传学,以及更多,更多。
然后你对自己说,“这一切都很好,但是100年后我早就死了。如果所有这些科学进步都要发生,我想要找到一种方法来加速它。“。
到了1920年,重大的科学基金还不存在。当然,今天我们有国家卫生研究院(NIH)和国家科学基金会(NSF),这两个机构每年总共资助约450亿美元。但这两家机构分别要到1930年和1950年才会存在。
因此,作为1920年的总统,您决定设立政府科学基金。你将如何做到这样,在接下来的一百年里,普通的科学发现或发明将比其他情况下仅仅提前五年发生呢?如果这太难了,你怎么能在五年前只有一项科学发现呢?
即使事后诸葛亮,这似乎也是一个很难回答的问题。一些最著名的科学发现都是偶然的:亚历山大·弗莱明(Alexander Fleming)发现青霉素;威廉·伦琴(Wilhelm Rentgen)发现X射线;阿基米德(Archimed)在洗澡时意识到如何测量不规则形状物体的体积。
很难预测会有什么意外的发现。不管是不是偶然的,你不能完全预料到未来的科学发现,否则你现在就已经有了那个发现。
但我们能不能至少创造一个条件,让科学发现更频繁地出现呢?更好的是,我们能在提高科学重现性的同时做到这一点吗?
最常见的想法之一是“为人提供资金,而不是为项目提供资金”。换言之,当最优秀的科学家有自由跟随自己的直觉,而不受旨在满足外部官僚机构的特定建议的束缚时,科学创新就会蓬勃发展。因此,如果你想资助最具创新性的科学,你应该寻找最优秀的人,然后给他们几年的资金来做他们想做的事情。
这个想法有一定的道理。一篇著名的论文认为,霍华德·休斯医学研究所(Howard Hughes Medical Institute)成功地利用这种模式支持了比NIH更具创新性的生物医学研究,而另一篇论文则认为,NIH类似的小型项目是成功的。著名的计算机科学家艾伦·凯(Alan Kay)写道,开发互联网的最初资金基于两个原则:“愿景而不是目标”和“资助人,而不是项目”。
虽然有“资助人而不是项目”的位置,但这不太可能为大规模的科学资助而工作。我担心,以这种方式每年发放400多亿美元可能会产生比以往任何时候都更多的群体思维。年轻的科学家需要扮演办公室政治的极端版本,才能被视为有前途的获得资助的“人”之一。
其他人则建议我们依靠大众的智慧,通过给予广泛的科学家能力,将一些资金分配给他们认为特别有前途的其他科学家。事实上,荷兰政府正在试行这样的方法。但是,很难理解为什么这种方法不会变成一场既不会提高创新力,也不会提高再现性的受欢迎程度的竞赛。
还有一些人争辩说,既然之前的科学发现是如此不可预测,而且几乎没有证据表明同行评议像NIH和其他机构所部署的那样有效,我们就应该承认我们不知道自己在做什么,并明确地让它听天由命。也就是说,通过相当低质量门槛的科研提案应该摇号决定哪些得到资助。事实上,新西兰和德国的主要资助机构一直在试验至少为部分赠款提供基于彩票的资助。
再说一次,虽然这个想法有一席之地,但很难理解为什么它会为少数几笔赠款而奏效。科学家至少需要有可能在很长一段时间内获得稳定和持续的资金。如果他们的整个职业生涯依赖于中奖机会很小的反复抽奖,而不是他们自己努力做好科学工作,那么几乎没有人会进入科学领域。
但是,一旦你允许之前的彩票中奖者根据他们的科学进步续签补助金,你就回到了起点:你如何最好地确定科学进步?如果认为我们在这个问题上不能做得比掷硬币更好,那就有点虚无了。
附注-虽然我在上面对一些资助机制的运作方式表示了一些怀疑,但我热情地支持这样的想法,即大型资助者(如NIH)应该做一个或多个随机试验,在这些试验中,数百万甚至数十亿美元以不同的方式分配,以检验结果。要求每个10万美元的研究项目都比我们整个系统分配400多亿美元的资金更严谨和更有证据,这是没有意义的。
有两个想法可以同时增加重现性和创新性,从而一举两得(实际上是两块石头中的每一块都是相同的两只鸟)。首先,我们需要从我们资助的所有科学中要求更多的无效结果。其次,我们需要“红队”所有的科学。我们去挖坑吧。
我们都偏向于积极和令人兴奋的结果。这是可以理解的:一种治疗癌症的药物比一种不治疗癌症的药物更令人兴奋,将高中辍学率降低50%的教育干预比什么都不做的教育干预更令人兴奋。一种提高婚姻幸福感的技术比让每个人都像以前一样不快乐的技术要好得多。这一切都让人想起我们是如何偏爱高热量食物的(几乎所有令人上瘾的食物--如薯片、冰激凌、甜甜圈、炸薯条等--都含有高脂肪和高碳水化合物)。
但是,正如偏向高卡路里食物会扰乱我们的饮食习惯,因为这样的食物可以全天候提供一样,偏向积极结果的偏向扭曲了整个科学过程,因为科学已经成为一个主要产业。对科学文献的回顾通常会发现,在所有主要研究领域,发表的结果都有70%到90%以上是积极的。
这是个大问题!科学家只有三种方式来保证积极的结果:
只研究前进道路清晰的边缘的、递增的主题,你几乎可以保证取得积极的结果;和/或。
歪曲您的研究设计、数据和分析,并隐藏所有仍然为空的结果。
让我们排除大多数研究人员都是通灵者的可能性。另外两种获得全面性结果的方法是对创新和/或再现性的威胁。
在科学领域,就像在其他一切领域(金融等)一样,存在风险和回报之间的权衡。低风险的项目回报很低。高回报的项目风险更大,也更有可能失败。可悲的是,我们并不生活在一个通常可以从事低风险和高回报的活动的宇宙中。
我们需要停止表现得好像科学可以通过提供突破性的但可以预见的成功的结果来逃避这种不可避免的风险和回报的权衡。诺贝尔奖获得者威廉·凯林(William Kaelin)今年早些时候写道:“今天,联邦研究资金越来越多地与潜在影响或交付成果联系在一起,越来越多的基础科学家被要求证明他们将如何利用第三、第四和第五年的资金,就好像他们的实验结果已经是可知的一样。”
如果您要求从几年后可预测的项目中获得实质性影响,您会得到什么?最糟糕的是:低风险、边缘的项目装扮成影响很大的样子。换句话说,科学并不是很有创新性,但却被用华而不实、不可复制的说法来描述。
我们需要开始要求零结果。每个联邦机构都应该重新调整其同行评审和授权续签程序,要求一定比例的研究项目将“失败”或产生无效的结果。(我们公众也可以停止向科学家大肆喝彩,停止TED演讲,等等,给他们带来迷人的结果。)。
对大多数研究项目会失败或产生零结果的明确预期,将使科学家既能承担创造性的风险(而不是研究增量主题),又能通过说出他们研究的全部真相(无论多么混乱或无效)来避免p-hack。
相反,如果太多的研究项目都取得了积极的结果,那就应该被视为调查的理由,而不是庆祝的原因。一些最著名的欺诈案例--例如心理学家迪德里克·斯塔佩尔(Diederk Stapel)--以总是产生令人印象深刻的积极结果而闻名。
空值结果的适当比率应该是多少?在我们知道关于某一特定问题的全部研究的情况下,通常高达90%的研究没有结果。例如,在联邦资助的随机对照研究评估的90项教育干预措施中,只有大约10%的结果是肯定的。
在光谱的另一端,考虑第三阶段临床试验(FDA批准之前的最后阶段)。一篇综合论文显示,只有大约59%的第三阶段试验成功。
这是一个人应该看到的积极结果的最大比率。毕竟,到提交给FDA的第三阶段临床试验时,一家制药公司可能已经在实验室测试、广泛的动物试验和早期阶段的人体试验上花费了几年和10亿美元或更多美元。即使有了这一切
.