统计学家警告称,人工智能仍未做好诊断新冠肺炎的准备

2020-07-19 23:44:58

虽然机器学习可能会成为一种强大的医疗工具,但统计学家警告说,目前的模型存在严重缺陷。

多年来,许多人工智能爱好者和研究人员承诺,机器学习将改变现代医学。已经开发了数以千计的算法来诊断癌症、心脏病和精神疾病等疾病。现在,正在训练算法,通过识别肺部CT扫描和X射线图像中的模式来检测新冠肺炎。

这些模型中的许多旨在预测哪些患者的结果最严重,哪些患者需要呼吸机。人们的兴奋是显而易见的;如果这些模型是准确的,它们可以为医生在检测和治疗冠状病毒患者方面提供巨大的帮助。

但是,人工智能辅助医学治疗真实的新冠肺炎患者的吸引力似乎还很遥远。世界各地的一群统计学家担心绝大多数机器学习模型的质量,以及如果医院很快采用它们可能造成的伤害。

荷兰乌得勒支大学医学中心的医学统计学家马尔滕·范·斯梅登(Maarten Van Smeden)说:“(它)吓坏了我们很多人,因为我们知道模型可以用来做出医疗决策。”“如果模型不好,他们可能会让医疗决策变得更糟。所以它们实际上会伤害病人。“。

范斯梅登正在与一大批国际研究人员共同领导一个项目,使用标准化标准评估新冠肺炎模型。这个项目是BMJ有史以来第一次进行现场审查,这意味着他们的40名审查员团队(而且还在不断壮大)正在积极更新他们的审查,因为新车型发布了。

到目前为止,他们对新冠肺炎机器学习模型的评价并不好:他们苦于严重缺乏来自广泛研究领域的数据和必要的专业知识,但新的新冠肺炎算法面临的问题一点也不新鲜:医学研究中的AI模型多年来一直存在严重缺陷,范斯梅登等统计学家一直试图敲响警钟,以扭转局面。

在新冠肺炎大流行之前,范德比尔特大学(Vanderbilt University)的生物统计学家弗兰克·哈雷尔(Frank Harrell)正在全国各地向医学研究人员讲授目前医学人工智能模型中普遍存在的问题。他经常借用一位著名经济学家的一句话来描述这个问题:医学研究人员正在使用机器学习来“折磨他们的数据,直到它吐出供词。”

这些数字支持了哈雷尔的说法,揭示了绝大多数医学算法几乎没有达到基本的质量标准。2019年10月,由英国伯明翰大学(University Of Birmingham)的刘晓轩(音译)和阿拉斯泰尔·丹尼斯顿(Alastair Denniston)领导的一个研究团队发表了第一篇系统综述,旨在回答这个时髦但难以捉摸的问题:在诊断病人方面,机器能像人类医生一样好,甚至更好吗?他们的结论是,当从医学成像中检测疾病时,大多数机器学习算法都与人类医生不相上下。然而,还有另一个更有力、更令人震惊的发现-自2012年以来发表的关于疾病检测算法的总共20530项研究中,只有不到1%的研究在方法上足够严格,可以纳入他们的分析。

研究人员认为,绝大多数人工智能研究的惨淡质量与最近对人工智能在医学上的过度炒作有直接关系。科学家们越来越想把人工智能加入他们的研究中,期刊比以往任何时候都更想发表使用人工智能的研究。丹尼斯顿说:“与我们预期的如果标题中没有人工智能的情况相比,正在出版的研究的质量并不好。”

以前算法的主要质量问题也出现在新冠肺炎模型中。随着新冠肺炎机器学习算法数量的迅速增加,它们正迅速成为该领域已经存在的所有问题的一个缩影。

就像他们的前辈一样,新的新冠肺炎车型的缺陷始于缺乏透明度。统计学家很难简单地试图弄清楚新冠肺炎人工智能研究的研究人员实际上做了什么,因为这些信息往往没有记录在他们的出版物中。范斯梅登说:“它们的报道如此之差,以至于我不能完全理解这些模型有什么作为输入,更不用说它们提供了什么作为输出。”“这太可怕了。”

由于缺乏文件,范·斯梅登的团队一开始就不确定建立该模型的数据从何而来,因此很难评估该模型是否对疾病的严重程度做出了准确的诊断或预测。这也让人不清楚该模型在应用于新患者时是否会产生准确的结果。

另一个常见的问题是,训练机器学习算法需要大量数据,但范斯梅登说,他的团队审查的模型使用得很少。他解释说,复杂的模型可能有数百万个变量,这意味着有数千名患者的数据集对于建立准确的诊断或疾病进展模型是必要的。但范斯梅登表示,目前的车型甚至还没有接近这一水平;大多数车型只有数百辆。

然而,这些小的数据集并不是由于世界各地新冠肺炎病例的短缺造成的。相反,范斯梅登说,研究人员之间缺乏合作导致各个团队依赖自己的小数据集。这也表明,不同领域的研究人员没有共同努力,这给研究人员开发和微调模型的能力造成了相当大的障碍,这些模型真正有可能提高临床护理水平。正如范斯梅登指出的那样,“你不仅需要建模师的专业知识,还需要统计学家、流行病学家(和)临床医生共同努力,制造出真正有用的东西。”最后,范斯梅登指出,人工智能研究人员需要时刻平衡质量和速度--即使在大流行期间也是如此。毕竟,速度快的模型是糟糕的模型,最终只会浪费时间。

“我们不想成为统计警察,”他说。“我们确实想找到好的模特。如果有好的模式,我想他们可能会有很大的帮助。“