分析16,158,032篇科学论文

2020-05-12 03:57:27

乔希·尼科尔森(Josh Nicholson)是SCITE(www.scite.ai)的联合创始人兼首席执行官,该公司正在使用深度学习来分析整个科学文献,以更好地衡量科学工作的准确性。

我们很高兴能与他坐下来,更多地了解他非凡而雄心勃勃的机器学习项目。

尼科尔森:SCITE的想法来自于观察到,癌症研究在独立测试时往往不能重现。这个问题也存在于其他领域,不仅仅是癌症研究。我们想要找到一种让科学研究更可靠的方法,而机器学习使我们能够大规模地分析文献。

尼科尔森:到目前为止,我们已经分析了16,158,032篇文章中的526,695,986条引文声明,而且这个数字每天都在迅速攀升。

尼科尔森:通过SCITE,我们正在努力引入智能引用。这些引用提供了每个引用的上下文及其含义。例如,我们想知道引用是否提供了支持或矛盾的证据-而不仅仅是它之前被引用、查看或下载的次数的衡量标准。这使人们可以查看一项研究,并迅速确定它是否得到了支持或反驳。

报纸空间:你从哪里获得数据来训练你的模型并创建引文图表?

Nicholson:Site通过与领先的学术出版商(如Wiley、IOP、洛克菲勒大学出版社、Karger、BMJ等)合作,利用开放获取的文章和未开放的内容。

Nicholson:在我们确定了引文及其上下文之后,我们的深度学习模型将引文陈述分为三类:支持、矛盾或提及。这个模型已经在来自不同科学领域的数万个人工注释的片段上进行了训练。

Paperspace:您的主要型号是否全天候运行?调谐进行了多少?

尼科尔森:它正在尽可能有效地运行,因为我们不断地吸收新的文章,并分析我们从这些文章中提取的引用声明。我们正在致力于完全自动化这一过程,以便一旦我们收到新文章,它就会被处理并添加到数据库中。其中大部分是由CPU以及我们自己拥有和运行的GPU在云中完成的。

报纸空间:每天都有这么多关于冠状病毒的新信息出来。SCITE是如何跟上海量入站数据的呢?

尼科尔森:起初,我们并没有真正关注冠状病毒研究,因为我认为我们没有太多可以提供的东西。一篇新论文不会仅仅因为它是如此新而被引用。然而,考虑到人们现在每天都在发布新的内容,某些出版物正在收到几天的引文,而这通常需要几个月或几年的时间。例如,这份着眼于冠状病毒与信号分子相关的严重程度的预印本仅在五天后就得到了另一份预印本的支持,我们用SCITE捕捉到了这一预印本。

Paperspace:您最近通过机器学习模型运行了维基百科中的每一条引文。是什么让你想要进行这项研究,你的发现是什么?

尼科尔森:我们之所以决定这样做,是因为维基百科通常是许多人试图更好地理解一些东西的第一站,也是唯一一站。我们发现,大多数被引用的文章(58%)没有被后续研究证实,而其余的文章在矛盾或支持证据方面表现出很大的变异性(2-40%)。这听起来很糟糕,但实际上与所有一般的科学文章并没有太大的不同。事实上,维基百科上的科学文章获得的支持性引用比整个科学文献都多。

我们发现真正有趣的是,文章引用了文献中实际上并不支持的参考文献。例如,维基百科的自杀和互联网文章称:“一项调查发现,与没有报告更大自杀风险症状的网民相比,出于自杀相关目的上网的自杀风险个人更不可能寻求帮助,感觉到的社会支持也更少。”这句话引用的是一份与另一份科学报告相矛盾的科学报告,而这份报告只能通过查看SCITE才能看到。在维基百科的这篇文章中有这些额外的信息可能会影响行为选择,这些行为选择可能会对大量的人产生生死存亡的后果。

尼科尔森:我们花了大约一天的时间来对大约1500万条引文进行分类,但这项研究对我们来说相当容易,因为我们采用了已经进行的分类,然后只看了维基百科上的文章。

尼科尔森:我希望SCITE将有助于改变科学家的行为方式,奖励那些做出足够强大工作的人,这样其他人就可以验证它,同时也奖励更开放的辩论。科学本质上影响着我们生活的方方面面,我们的使命是让科学更可靠。