已经构建了数百种 AI 工具来捕捉 Covid。他们都没有帮助

2021-07-31 10:38:25

当 covid-19 于 2020 年 3 月袭击欧洲时,医院陷入了一场人们仍知之甚少的健康危机。 “医生真的不知道如何管理这些患者,”荷兰马斯特里赫特大学研究预测工具的流行病学家 Laure Wynants 说。但是有来自中国的数据,中国在战胜大流行的竞赛中领先四个月。如果机器学习算法可以根据这些数据进行训练,以帮助医生了解他们所看到的内容并做出决定,那么它可能会挽救生命。 “我想,'如果有任何时候人工智能可以证明其有用性,那就是现在,'”Wynants 说。 “我抱有希望。”它从未发生过——但不是因为缺乏努力。世界各地的研究团队加紧提供帮助。人工智能社区尤其急于开发软件,许多人认为这些软件可以让医院更快地诊断或分诊患者,为前线带来急需的支持——理论上。最后,开发了数百种预测工具。它们都没有产生真正的影响,有些可能有害。这是过去几个月发表的多项研究得出的结论。 6 月,英国国家数据科学和人工智能中心图灵研究所发布了一份报告,总结了其在 2020 年底举办的一系列研讨会上的讨论。明确的共识是,人工智能工具几乎没有产生任何影响。在抗击新冠病毒的斗争中。这与评估去年开发的数百种预测工具的两项主要研究的结果相呼应。 Wynants 是其中之一的主要作者,英国医学杂志上的一篇评论仍在随着新工具的发布和现有工具的测试而更新。她和她的同事研究了 232 种算法来诊断患者或预测患有这种疾病的人可能会生病。他们发现它们都不适合临床使用。只有两个被挑出来作为未来测试的有希望的。 “这令人震惊,”Wynants 说。 “我带着一些担忧进入了它,但这超出了我的恐惧。”

Wynants 的研究得到了剑桥大学机器学习研究员德里克·德里格斯 (Derek Driggs) 及其同事进行的另一项大型评论的支持,该评论发表在《自然机器智能》上。该团队放大了深度学习模型,用于诊断 Covid 并通过医学图像预测患者风险,例如胸部 X 射线和胸部计算机断层扫描 (CT) 扫描。他们查看了 415 种已发布的工具,并像 Wynants 和她的同事一样得出结论,没有一种适合临床使用。 “这次大流行是对人工智能和医学的一次重大考验,”德里格斯说,他本人正在研究一种机器学习工具,以在大流行期间帮助医生。 “如果想让公众站在我们一边,这将大有帮助,”他说。 “但我不认为我们通过了那个测试。”两个团队都发现研究人员在训练或测试工具的方式上重复了相同的基本错误。对数据的不正确假设通常意味着经过训练的模型没有按照声称的那样工作。 Wynants 和 Driggs 仍然相信人工智能有潜力提供帮助。但他们担心如果以错误的方式构建它可能是有害的,因为他们可能会错过诊断或低估脆弱患者的风险。 “关于机器学习模型以及它们今天可以做什么,有很多炒作,”德里格斯说。不切实际的期望鼓励在这些工具准备好之前使用它们。 Wynants 和 Driggs 都表示,他们研究的一些算法已经在医院使用,有些正在由私人开发商销售。 “我担心他们可能伤害了病人,”Wynants 说。那么出了什么问题呢?我们如何弥合这一差距?如果说有好处,那就是大流行已经让许多研究人员清楚地看到,人工智能工具的构建方式需要改变。 Wynants 说:“大流行使我们已经拖了一段时间的问题成为人们关注的焦点。”发现的许多问题都与研究人员用来开发工具的数据质量差有关。在全球大流行期间,通常是由努力治疗这些患者的医生收集和共享有关 COVID 患者的信息,包括医学扫描。研究人员希望迅速提供帮助,而这些是唯一可用的公共数据集。但这意味着许多工具是使用错误标记的数据或来自未知来源的数据构建的。

德里格斯强调了他所谓的弗兰肯斯坦数据集的问题,这些数据集是从多个来源拼接在一起的,可能包含重复项。这意味着某些工具最终会在它们接受过训练的相同数据上进行测试,使它们看起来比实际更准确。它还混淆了某些数据集的来源。这可能意味着研究人员会错过影响模型训练的重要特征。许多人在不知不觉中使用了一个数据集,其中包含没有感染过新冠病毒的儿童的胸部扫描,作为非新冠病毒病例的示例。但结果是,人工智能学会了识别孩子,而不是新冠病毒。 Driggs 的小组使用一个数据集训练了自己的模型,该数据集包含患者躺下和站起来时进行的混合扫描。由于躺下进行扫描的患者更有可能患重病,因此人工智能错误地学会了从一个人的位置预测严重的新冠病毒风险。在其他情况下,一些 AI 被发现接收某些医院用来标记扫描的文本字体。结果,来自具有更严重病例的医院的字体成为covid风险的预测指标。事后看来,像这样的错误似乎很明显。如果研究人员知道它们,它们也可以通过调整模型来修复。承认这些缺点并发布一个不太准确但误导性较小的模型是可能的。但是,许多工具要么是由缺乏医学专业知识来发现数据缺陷的人工智能研究人员开发的,要么是由缺乏弥补这些缺陷的数学技能的医学研究人员开发的。德里格斯强调的一个更微妙的问题是合并偏差,或在数据集被标记时引入的偏差。例如,许多医学扫描是根据创建它们的放射科医生是否表示它们显示出新冠病毒来标记的。但这会将特定医生的任何偏见嵌入或合并到数据集的基本事实中。德里格斯说,用 PCR 测试的结果而不是医生的意见来标记医学扫描会好得多。但在繁忙的医院里,并不总是有时间进行统计细节。这并没有阻止其中一些工具被匆忙投入临床实践。 Wynants 表示,目前尚不清楚正在使用哪些或如何使用。医院有时会说他们仅将工具用于研究目的,这使得很难评估医生对它们的依赖程度。 “有很多秘密,”她说。

Wynants 要求一家营销深度学习算法的公司分享有关其方法的信息,但没有收到回复。她后来从与这家公司有关联的研究人员那里发现了几个已发表的模型,所有这些模型都有很高的偏见风险。 “我们实际上并不知道公司实施了什么,”她说。据 Wynants 称,一些医院甚至与医疗 AI 供应商签署了保密协议。当她问医生他们使用的是什么算法或软件时,他们有时会告诉她他们不能说。有什么解决办法?更好的数据会有所帮助,但在危机时期,这是一个很大的要求。更重要的是充分利用我们拥有的数据集。德里格斯说,最简单的举措是让人工智能团队与临床医生进行更多合作。研究人员还需要分享他们的模型并披露他们是如何训练的,以便其他人可以测试它们并以此为基础。 “这是我们今天可以做的两件事,”他说。 “他们可能会解决我们发现的 50% 的问题。”总部位于伦敦的全球健康研究慈善机构 Wellcome Trust 临床技术团队的负责人 Bilal Mateen 说,如果格式标准化,获取数据也会更容易。 Wynants、Driggs 和 Mateen 都发现的另一个问题是,大多数研究人员急于开发自己的模型,而不是合作或改进现有模型。结果是全世界研究人员的集体努力产生了数百种平庸的工具,而不是少数经过适当培训和测试的工具。 Wynants 说:“这些模型非常相似——它们几乎都使用相同的技术,只是稍作调整,同样的输入——它们都犯了同样的错误。” “如果所有这些人都在制作新模型,而不是测试已经可用的模型,那么也许我们现在可以真正在临床上有所帮助。”从某种意义上说,这是研究的老问题。学术研究人员几乎没有职业动机来分享工作或验证现有结果。迈进将技术从“实验室工作台带到床边”的最后一英里是没有回报的,Mateen 说。

为了解决这个问题,世界卫生组织正在考虑签订一份紧急数据共享合同,该合同将在国际健康危机期间生效。 Mateen 说,这会让研究人员更容易地跨境移动数据。在 6 月在英国举行的 G7 峰会之前,来自参与国的领先科学团体也呼吁“数据准备就绪”,为未来的突发卫生事件做好准备。这样的举措听起来有点含糊,而变革的呼声总是带有一丝一厢情愿的想法。但马丁有他所谓的“天真乐观”的观点。在大流行之前,此类举措的势头已经停滞。他说:“感觉山太高了,不能远足,景色不值得。” “Covid 已经将很多事情重新提上了日程。” “除非我们认同我们需要在解决性感问题之前解决不性感问题的想法,否则我们注定要重复同样的错误,”马丁说。 “如果它没有发生,这是不可接受的。忘记这次大流行的教训是对逝者的不尊重。”