人工智能有望在医学图像和扫描中熟练地诊断疾病。然而,仔细观察用于训练诊断眼睛状况的算法的数据就会发现,这些强大的新工具可能会延续健康不平等。
英国的一组研究人员分析了94个数据集-超过50万张图像-通常用于训练人工智能算法来发现眼病。他们发现,几乎所有的数据都来自北美、欧洲和中国的患者。只有四个数据集来自南亚,两个来自南美,一个来自非洲,没有一个来自大洋洲。
参与这项研究的伯明翰大学眼科医生兼研究员刘晓轩(音译)表示,这些眼睛图像来源的差异意味着,人工智能眼科检查算法对来自代表性不足国家的种族群体不太确定。“即使疾病在某些人群中有非常微妙的变化,人工智能也可能失败得相当严重,”她说。
美国眼科医生协会对人工智能工具表现出了热情,称这有望帮助提高护理标准。但刘说,如果医生们了解到这些工具是通过研究以白人为主的患者而建立起来的,他们可能不愿为少数族裔使用这些工具。她指出,算法可能会因为医生自己注意不到的太微妙的差异而失败。
研究人员还在数据中发现了其他问题。许多数据集不包括关键的人口统计数据,如年龄、性别和种族,因此很难衡量它们是否在其他方面存在偏见。这些数据集也往往是围绕少数几种疾病创建的:青光眼、糖尿病视网膜病变和年龄相关性黄斑变性。用于训练算法的46个数据集没有提供数据。
近年来,美国食品和药物管理局(FDA)已经批准了几种人工智能成像产品,其中包括两种用于眼科的人工智能工具。刘说,这些算法背后的公司通常不会提供它们是如何训练的细节。她和她的合著者呼吁监管机构在检查人工智能工具时考虑训练数据的多样性。
在眼睛图像数据集中发现的偏差意味着,根据这些数据训练的算法在非洲、拉丁美洲或东南亚不太可能正常工作。这将破坏人工智能诊断被认为的一大好处:它将自动化医疗专业知识带到更贫穷的缺乏的地区的潜力。
“你得到的创新只会让特定人群中的某些人受益,”刘说。“这就像有了一张谷歌地图,但它不会输入特定的邮政编码。”
在眼睛图像中发现的缺乏多样性,研究人员称之为“数据贫困”,可能会影响许多医学人工智能算法。
斯坦福大学(Stanford University)医学助理教授阿米特·考沙尔(Amit Kaushal)是一个团队的成员,该团队分析了74项涉及人工智能医疗用途的研究,其中56项使用了美国患者的数据。他们发现,大多数美国数据来自三个州-加利福尼亚州(22个)、纽约州(15个)和马萨诸塞州(14个)。
考沙尔说:“当人口的子群被系统地排除在人工智能训练数据之外时,对于那些被排除的群体,人工智能算法的表现往往会更差。”“由于缺乏可用的数据,人工智能研究人员甚至可能不会研究代表不足的人群面临的问题。”
他说,解决方案是让人工智能研究人员和医生意识到这个问题,这样他们就可以寻找更多样化的数据集。他说:“我们需要创建一个技术基础设施,允许为人工智能研究访问不同的数据,以及一个支持和保护这些数据的研究使用的监管环境。”
佛罗里达州梅奥诊所(Mayo Clinic)的研究科学家维卡什·古普塔(Vikash Gupta)致力于人工智能在放射学中的使用,他说,简单地增加更多样化的数据可能会消除偏见。“目前很难说如何解决这个问题,”他说。
然而,古普塔说,在某些情况下,算法专注于人群的一个子集可能是有用的,例如,当诊断一种对该群体影响不成比例的疾病时。
眼科医生刘表示,随着这项技术变得更加广泛,她希望看到医学人工智能训练数据更加多样化。她说:“十年后,当我们使用人工智能来诊断疾病时,如果我面前有一个肤色较深的病人,我不想说‘对不起,但我必须给你不同的治疗,因为这对你不管用。’”
💻使用我们Gear团队最喜欢的笔记本电脑、键盘、替代打字设备和降噪耳机升级您的工作游戏