机器学习在医学中蓬勃发展,但也面临着可信度的危机

2021-06-08 15:09:49

疯狂的破折号随着大流行快速加速。研究人员被冲刺,看看人工智能是否可以解开Covid-19的许多秘密 - 以及充分原因。对令人震惊的患者的测试和治疗有短缺。也许ai可能会发现早期的肺图像上的疾病,并预测哪个患者最有可能严重生病。

数以百计的研究淹没在预印度服务器上,并掌握了医学期刊,声称展示了以高精度执行这些任务的能力。直到很多月后,英格兰大学的研究小组开始检查模型 - 超过400人 - 并达到了不同的结论:每个人都致命缺陷。

“这是一个真正的醒目者,非常令人惊讶于那里有多少方法缺陷,”Ian Selby,Reash团队的放射科医生和成员。该审查发现算法通常培训,具有有限的多样性数据样本;有些人甚至重复使用相同的数据进行培训和测试,这是一个激烈的罪恶,可以导致误导性令人印象深刻的表现。 Selby,Ai长期潜力的信徒表示,错误和歧义的普遍性使得在公布的索赔中难以获得信心。

“你最终得到了这个非常污染的研究领域,”他说。 “你读了很多论文,你的天然本能不是想要相信它们。”

问题不仅限于Covid-19研究。机器学习,AI驾驶数十亿美元投资的AI的子集,正面临着危机的信誉。一篇日益增长的论文清单依赖于有限或低质量的数据,未能指定他们的培训方法和统计方法,并不测试他们是否会为不同种族,性别,年龄和地区的人员工作。

这些缺点来自机器学习研究中的一系列系统挑战。激烈的竞争导致更严格的出版期限,大量引用的预印刷品可能并不总是经历严格的同行评审。在某些情况下,与Covid-19型号的情况一样,对快速解决方案的需求也可能限制实验的严格。

到目前为止最大的问题 - 而且最棘手的解决 - 点到机器学习的Catch-22:少数大型,多样化的数据集训练和验证新工具,许多存在的人都是保密的法律或商业原因。但这意味着外部研究人员没有数据来测试纸张的索赔或将其与类似工作进行比较,这是审查任何科学研究的关键步骤。

未能测试来自不同来源的数据的AI模型 - 称为外部验证的过程 - 在预印件服务器和领先的医学期刊上发布的研究中是常见的。它经常导致一种在研究中看起来高度准确的算法,但是在暴露于现实世界的变量时未能在相同的水平上执行,例如用不同设备获得的不同类型的患者或成像扫描。

“如果在[一项研究]期间使用的临床护理中没有复制绩效结果,那么我们冒着无法信任的批准算法,”马萨诸塞州工业研究所的研究员Matthew McDermott说 - 最近关于这些问题的论文。 “他们实际上可能最终会恶化的患者护理。”

这可能已经发生了各种产品,用于帮助治疗心脏病和癌症等严重疾病。最近的统计调查发现,联邦食品和药物管理局批准的只有73名的AI产品中只公开披露用于验证该产品的数据量,只有七个报告他们的研究人口的种族化妆。即使是数据的来源也几乎从未给出过。

这些调查结果在斯坦福研究人员中介绍了一篇论文,他们强调了缺乏前瞻性研究,或研究未来结果的研究,甚至是由FDA清除的更高风险的AI产品。他们还注意到,大多数AI设备在少数站点评估,并且只有微小的分数报告了如何在不同的人口组中执行的AI。

“我们希望AI负责任地和可靠地为不同医院的不同患者工作,”斯坦福和本文共同作者的生物医学数据科学教授James Zou表示。 “因此,能够在这些不同类型的数据中评估和测试算法尤为重要。”

剑桥大学进行的审查发现,许多研究不仅缺乏外部验证,还忽略了指定使用的数据来源或有关其AI模型的培训方式的详细信息。超过400篇论文中的62名未能根据这些遗漏和其他失误通过初始质量筛查。

即使是那些幸存的初始筛查患有多种缺陷的缺点 - 55种62篇论文也被发现是由于各种问题的高风险,包括依赖于涉嫌代表Covid-19的许多图像的公共数据集没有得到证实是积极的案例。几种培训以诊断成人Covid-19胸X射线患者的少数AI型号在儿科患者的肺炎患者的图像上进行了测试。

“[儿科映像]通常是5岁以下的儿童,与成年人相比,有巨大的解剖差异,因此这些模型在挑选了Covid与非Covid方面非常好的结果绝对不足为奇,”Selby说。 “无论Covid身份如何,患者在胸部X射线上看起来完全不同。”

研究人员发现了在预印度服务器上发布的论文以及通过同行评审审查更加审查的期刊出版的论文的重要缺陷。同行评审过程可能因各种原因而失败,包括缺乏关于机器学习方法或偏见的深刻知识,这对于导致其论文的肤浅审查的知名机构或公司。更大的问题是评估医学机器学习研究的缺乏共识标准,尽管这开始改变。剑桥大学研究人员使用了称为索赔的方法,该方法为作者和审稿人建立了一套常见的标准。

“我们在纸上试图指出清单的必要性,”塞尔比说。 “它让人们的问题,”我们解决了这个问题吗?我们是否考虑过这一点?“他们可能会意识到自己可以建立一个更好的模型,更多的想法和时间。”

在塞尔比和他的同事们出现高风险的论文中,在纽约山山西奈山的ICAHN医学学院的研究人员中公布了一个。

本文发现,用于诊断COVID-19胸部CT扫描的AI模型在.92曲线下的共同精度测量区域上表现良好 - 等于高级胸部放射科医师的性能。伴随论文释放的新闻稿表示该工具“可以帮助世界各地的医院迅速检测病毒,隔离患者,并防止其在这种大流行期间传播。”

但是,剑桥大学研究人员将纸张标记为高偏差风险,因为它的小424个Covid阳性患者的样本大小分布在用于训练,调整和测试AI的数据集。从中国的18个医疗中心获得数据,但目前尚不清楚哪个中心提供了关于积极和负数案件的数据,这提出了AI可以简单地检测扫描方法和设备的差异,而不是在生理学中的可能性患者。剑桥研究人员还指出,在独立数据集上没有测试性能,以验证其在不同群体中可靠地识别疾病的能力。

本文确实承认这项研究的小样本规模,需要额外的数据来测试不同患者人群的AI,但研究团队没有回复额外评论的请求。

时间限制可以解释,如果不是借口,则针对Covid-19开发的AI模型发现的一些问题。但是类似的方法论缺陷在一系列机器学习研究中很常见。指出这些失误已成为自己的医学研究,许多论文和社会呼吁更好的评估模型,并敦促研究人员对他们的方法更加透明。

无法复制调查结果尤其有问题,侵蚀了对AI的信任,并在临床护理中削弱部署它的努力。

最近对多个领域的511机器学习研究的综述发现,在医疗保健中产生的机器特别难以复制,因为底层代码和数据集很少公开。由MIT研究人员进行的审查发现,只有大约23%的机器学习研究在医疗保健中使用多个数据集来建立它们的结果,而在电脑视野中的80%相比,自然语言处理中的58%。

鉴于医疗保健的隐私限制以及访问跨越多个机构的数据的难度,这是一个可以理解的差距。但它仍然可以让AI开发人员在医疗保健方面获得足够的数据来首先获得足够的数据,使他们能够难以公开他们的来源,因此可以复制他们的来源。

谷歌最近宣布了一个应用AI来分析皮肤状况的应用程序,但拒绝公开披露用于创建模型的数据来源。发言人解释说,一些数据集是从第三方获得许可或用户捐赠,而该公司无法根据其协定条款发布数据。

MIT研究人员McDerMott表示,必须克服这些结构障碍,以确保可以完全评估和理解这些工具的效果。他注意到许多方法可以在不破坏隐私或知识产权的情况下分享数据,例如使用联合学习方法,其中机构可以共同开发模型而无需交换数据。其他人也使用合成数据 - 或在真正的患者上建模的数据 - 帮助保护隐私。

McDerMott表示仔细审查了机器学习工具,以及用于训练它们的数据尤其重要,因为它们正在制作难以努力的相关性,对于人类独立核实。

考虑评估时,考虑AI模型的时锁性质也很重要。 在一组数据上培训的模型,然后在不断变化的世界中部署的数据不保证以相同的方式工作。 疾病对患者的影响可能会改变,因此可以治疗它们的方法。 麦克德马特说:“我们应该本质上对任何长期普遍性和结果稳定性的稳定性更加持怀疑态度。” “一个静态的监管范式,我们说,'OK,这个算法获得了批准的邮票,现在你可以永远地做到你想要的东西,永远是” - 对我来说感到危险。“ 这是一年一年的一系列文章的一部分,探索了在美国授予的医疗保健中使用人工智能的人工智力,这些文献由英联邦基金的授权部分资助。