斯坦福 AIMI 发布其免费的开源医学数据集存储库

2021-08-06 07:46:23

为了刺激医疗保健领域的众包 AI 应用,斯坦福大学的 AIMI 中心正在为世界各地的研究人员扩展其免费的数据集存储库。为了使人工智能和医学研究民主化,斯坦福大学医学和成像人工智能中心 (AIMI) 正在大幅扩展已经是世界上最大的 AI 就绪注释医学成像数据集的免费存储库。人工智能已成为解释医学图像的越来越普遍的工具,从检测乳房 X 光照片和脑部扫描中的肿瘤到分析一个人心脏跳动的超声视频。许多人工智能设备现在可以与人类医生的准确性相媲美。除了简单地发现可能的肿瘤或骨折之外,一些系统还可以预测患者的病程并提出建议。但是人工智能工具必须在昂贵的图像数据集上进行训练,这些数据集已经由人类专家精心标注。由于获取或创建这些数据集可能需要数百万美元,因此大部分研究由大公司资助,这些公司不一定与公众共享数据。 “无论你是外科医生还是产科医生,推动这项技术的都是数据,”AIMI 联合主任兼斯坦福大学放射学助理教授 Matthew Lungren 说。 “我们想加倍强调医疗数据是一种公共产品,它应该向世界任何地方的研究人员开放。”两年前推出的 AIMI 已经获得了超过 100 万张图像的注释数据集,其中许多来自斯坦福大学医学中心。研究人员可以免费下载这些数据集,并使用它们来训练推荐某些类型动作的 AI 模型。

现在,AIMI 与微软的 AI for Health 计划合作推出了一个新平台,该平台将更加自动化、可访问和可见。它将能够托管和组织来自世界各地机构的大量额外图像。部分想法是创建一个开放的全球存储库。该平台还将提供一个共享研究的中心,使改进不同模型和识别人口群体之间的差异变得更加容易。该平台甚至可以提供基于云的计算能力,因此研究人员不必担心构建本地资源密集型临床机器学习基础设施。这个想法是为人工智能医学研究创建一个完整的生态系统,而不仅仅是用于分析图像。使用正确的数据集,人们还可以探索除像素数据之外的重要临床用例,包括其他相关的伴随多模态数据。该中心已经拥有包含超过 100 万张图像的 9 个数据集,Lungren 预测这个数字将在明年翻一番。新平台将发布两个新数据集。 “这个平台将拥有世界上最大的多样性和数量的 AI 就绪医疗数据集,”他说。随着时间的推移,该平台还将提供标准化的机器学习工具和预训练模型,利用开源数据和通用架构——盒装 AI 软件——来刺激众包 AI 研究的浪潮。通过免费提供数据,研究人员将能够探索大公司可能会忽视的利基领域,例如影响特定社区的医疗问题。这些多样化的数据集也将使研究人员更容易发现数据或算法中隐藏的偏见。研究表明,某些 AI 模型对于某些人群比其他人更准确,主要是因为它们是根据来自一个位置的患者数据进行训练的。拥有来自许多不同社区的数据集将使研究人员更容易发现这些问题。

“我们喜欢公司做所有这些工作,但我们不喜欢共享信息的机会不对称的事实,”Lungren 说。 “如果他们积累数据然后将其锁定,他们将是唯一可以创新的人,这将排除世界各地计算机科学家和临床医生的重要贡献。这不是我们想要的位置。”斯坦福 HAI 的使命是推进人工智能研究、教育、政策和实践,以改善人类状况。了解更多 。