专家称谷歌预测乳腺癌的AI研究缺乏详细方法和源代码“破坏了科学价值”

2020-10-15 22:49:33

早在1月份,专注于健康相关研究、临床工具和医疗服务合作伙伴关系的谷歌健康(Google Health)发布了一个人工智能模型,对超过9万张乳房X光片进行了培训,该公司表示,该模型取得了比人类放射学家更好的结果。谷歌声称,与之前的工作相比,该算法可以识别更多的假阴性-看起来正常但含有乳腺癌的图像-但一些临床医生、数据科学家和工程师对这一说法提出了异议。在今天发表在“自然”(Nature)杂志上的一篇反驳文章中,麦吉尔大学(McGill University)、纽约城市大学(CUNY)、哈佛大学(Harvard University)和斯坦福大学(Stanford University)的19多名合著者表示,谷歌的研究缺乏详细的方法和代码,“破坏了它的科学价值”。

科学总体上存在重复性问题-2016年对1500名科学家进行的一项民意调查报告称,70%的科学家曾尝试至少复制过一名其他科学家的实验,但失败了-但这在人工智能领域尤为严重。在ICML 2019大会上,30%的作者未能在大会开始前将代码与论文一起提交。研究通常提供基准测试结果而不是源代码,当基准测试的彻底性受到质疑时,这就成了问题。最近的一份报告发现,自然语言处理模型给出的答案中有60%到70%嵌入了基准训练集中的某个地方,这表明这些模型通常只是简单地记忆答案。另一项研究-对3000多篇人工智能论文进行的荟萃分析-发现,用于对人工智能和机器学习模型进行基准测试的指标往往不一致,被不规则跟踪,而且信息不是特别丰富。

在他们的反驳中,《自然评论》的合著者指出,谷歌的乳腺癌模型研究缺乏细节,包括对模型开发的描述,以及所使用的数据处理和培训渠道。Google省略了模型架构(模型用来进行诊断预测的变量)的几个超参数的定义,也没有公开用来增加模型训练所依据的数据集的变量。“自然”杂志的合著者声称,这可能会“显著”影响性能;例如,谷歌使用的数据扩充之一可能会导致同一患者的多个实例,从而影响最终结果。

“从纸面上和理论上讲,(谷歌)的研究都是美好的,”玛格丽特公主癌症中心的资深科学家、“自然”评论的第一作者本杰明·海贝-凯恩斯(Benjamin Haibe-Kains)博士说。“但如果我们不能从中吸取教训,那么它就没有什么科学价值了。”…。研究人员更愿意发表他们的发现,而不是花费时间和资源来确保他们的研究可以复制…。科学进步有赖于研究人员仔细检查研究结果并复制主要发现以供借鉴的能力。“。

谷歌方面表示,用于训练模型的代码对内部工具、基础设施和硬件有许多依赖,这使得它的发布是不可行的。该公司在决定不发布这两个训练数据集时还提到了它们的专有性质(都是在许可下的)和患者健康数据的敏感性。但“自然”杂志的合著者指出,原始数据的共享在生物医学文献中已经变得更加普遍,从21世纪初的不到1%增加到今天的20%,而且模型预测和数据标签本可以在不泄露个人信息的情况下发布。

合著者在“自然”杂志上写道:“(谷歌的)大规模机器学习应用程序的多重软件依赖性要求对软件环境进行适当的控制,这可以通过包括Conda在内的包管理器,以及容器和虚拟化系统(包括Code Ocean、Gigantum和Colboratory)来实现。”“如果内部工具的虚拟化被证明是困难的,[谷歌]本可以公布计算机代码和文档。作者还可以创建玩具示例来说明必须如何处理新数据才能生成预测。

“自然”杂志的合著者断言,对于事关人命的努力--就像谷歌的模型如果部署在临床环境中就会出现的情况--应该有一个很高的透明度门槛。他们写道,如果数据因为许可或其他无法克服的问题而无法与社区共享,就应该建立一种机制,这样训练有素的独立调查人员就可以访问数据并验证分析,从而允许对研究及其证据进行同行审查。

“我们对人工智能方法在医学上的应用寄予厚望,”他们写道。然而,要确保这些方法发挥其潜力,需要这些研究具有可重复性。

事实上,部分由于在发布代码、数据集和技术方面保持沉默,今天用于训练诊断疾病的人工智能算法的大部分数据可能会使不平等永久化。一组英国科学家发现,几乎所有的眼病数据集都来自北美、欧洲和中国的患者,这意味着眼病诊断算法对代表不足的国家的种族群体来说不太确定。在另一项研究中,斯坦福大学的研究人员声称,涉及人工智能医疗用途的研究的大部分美国数据来自加利福尼亚州、纽约和马萨诸塞州。UnitedHealth Group算法的一项新研究确定,它可能会将需要更多护理的黑人患者数量低估一半。越来越多的工作表明,皮肤癌检测算法在用于黑人患者时往往不那么精确,部分原因是人工智能模型主要针对浅色皮肤患者的图像进行训练。

除了基本的数据集挑战之外,缺乏足够的同行评审的模型在部署到现实世界中时可能会遇到不可预见的障碍。哈佛大学的科学家发现,被训练来识别和分类CT扫描的算法可能会对某些CT机制造商的扫描格式产生偏见。与此同时,谷歌发布的一份白皮书揭示了在泰国医院实施眼病预测系统的挑战,包括扫描准确性问题。像巴比伦健康这样的公司进行的研究一再受到质疑。巴比伦健康是一家资金雄厚的远程医疗初创公司,声称能够从短信中分诊一系列疾病。

美国医学信息学协会杂志(Journal Of American Medical Informatics Association)最近一篇论文的合著者写道:“如果解决不好,在人工智能的外衣下传播这些偏见,可能会夸大已经承担着最高疾病负担的少数群体面临的健康差距。”该论文认为,有偏见的模型可能会进一步加剧冠状病毒大流行对有色人种造成的不成比例的影响。“这些工具是根据反映医疗体系有偏见的有偏见的数据建立起来的,因此它们本身也存在很高的偏见风险--即使明确排除了种族或性别等敏感属性。”

“自然”杂志的合著者主张不惜一切代价对医学模型进行第三方验证。他们说,如果做不到这一点,可能会降低其影响,并导致意想不到的后果。他们写道:“不幸的是,生物医学文献中充斥着未能通过重复性测试的研究,其中许多研究可能与方法论和实验实践有关,而由于未能完全披露软件和数据,这些方法和实验实践无法进行调查。”“(谷歌)在共享关键材料和信息方面的失败,使他们的工作从一份公开的科学出版物转变为一项封闭技术的推广。”