当心人工智能在医疗保健领域的解释

2021-07-22 21:37:15

人工智能和机器学习 (AI/ML) 算法在医疗保健领域得到越来越多的发展,用于诊断和治疗各种疾病 ([1][1])。然而,尽管此类系统具有强大的技术实力,但它们的采用一直具有挑战性,它们是否以及在多大程度上能够真正改善医疗保健仍有待观察。一个核心原因是基于 AI/ML 的医疗设备的有效性在很大程度上取决于其用户的行为特征,例如,他们通常容易受到有据可查的偏见或算法厌恶的影响([2][2] )。许多利益相关者越来越多地将预测算法的所谓黑盒性质确定为用户怀疑、缺乏信任和缓慢吸收的核心来源([3][3],[4][4])。因此,立法者一直在朝着要求对黑盒算法决策提供解释的方向发展([5][5])。事实上,学术界、政府和民间社会团体正在形成支持可解释的 AI/ML 的近乎共识。许多人被这种方法所吸引,以利用不可解释的 AI/ML 的准确性优势,例如深度学习或神经网络,同时还支持透明度、信任和采用。我们认为,这种共识,至少适用于医疗保健,既夸大了要求黑盒算法可解释的好处,又低估了缺点。首先区分可解释和可解释的 AI/ML 很重要。这是两种截然不同的算法,它们以不同的方式处理不透明问题——从黑匣子生成的 AI 预测会破坏 AI 的信任、问责制和应用。典型的 AI/ML 任务需要构建一种算法输入向量(例如医学图像的像素值)并生成与疾病发生(例如癌症诊断)相关的输出。该算法在具有已知标签的过去数据上进行训练,这意味着将输入与输出相关的数学函数的参数是从该数据中估计出来的。当我们将算法称为“黑匣子”时,我们的意思是,将输入与输出相关联的估计函数在普通人的水平上是无法理解的(例如,由于该函数依赖于大量参数、复杂的组合参数,或参数的非线性变换。可解释的 AI/ML(这不是我们主要批评的主题)大致如下:它使用透明(“白盒”)而不是使用黑盒函数一个易于理解的形式的函数,例如,一个线性模型,其参数对应于与输入特征和输出相关的附加权重,或者一个分类树,它创建了一个直观的基于规则的决策空间图。这种算法被描述为可理解的([6][6])和可分解的([7][7])。可解释的算法可能不是每个人都能立即理解的(例如,即使是回归也需要一些线性关系的背景知识,并且可能会被误解)。然而,可解释的 AI/ML 算法的主要卖点是它们是开放的、透明的,并且能够通过合理的努力被理解。因此,一些学者认为,在许多情况下,只应使用可解释的算法,尤其是当政府使用它们来分配负担和收益时([8][8])。然而,要求可解释性将对 ML 产生重要的变化,正如今天所做的那样——本质上,我们完全放弃了深度学习及其可能带来的任何好处。可解释的 AI/ML 是非常不同的,尽管这两种方法经常被组合在一起。可解释的 AI/ML,正如通常使用的术语,大致执行以下操作:给定一个用于进行预测或诊断的黑盒模型,第二个解释性算法找到一个可解释的函数,它非常接近黑盒的输出。第二种算法是通过拟合黑盒的预测而不是原始数据来训练的,它通常用于为黑盒输出开发事后解释,而不是进行实际预测,因为它通常不如黑匣子。例如,可以根据黑盒算法中输入数据的哪些属性对特定预测最重要来给出解释,或者它可以提供易于理解的线性模型,该模型给出与黑盒算法相似的输出-box 算法用于相同的给定输入 ([ 4 ][4])。其他模型,例如所谓的反事实解释或热图,也是可能的([9][9],[10][10])。换句话说,可解释的 AI/ML 通常会找到一个部分模仿黑盒行为的白盒,然后将其用作黑盒预测的解释。 需要注意的三点很重要:第一,不透明函数黑匣子仍然是 AI/ML 决策的基础,因为它通常是最准确的。其次,白盒对黑盒的近似不可能是完美的,因为如果是这样,两者之间就没有区别了。它也不是专注于准确性,而是专注于拟合黑匣子,通常只在局部。最后,提供的解释是事后的。这与可解释的 AI/ML 不同,后者使用负责生成输出的完全相同的函数给出解释,并且对于所有输入都是事先已知和固定的。很大一部分基于 AI/ML 的医疗设备具有这样的功能迄今为止,美国食品和药物管理局 (FDA) 已批准或批准使用不可解释的黑盒模型,例如深度学习 ([1][1])。这可能是因为黑盒模型被认为在许多医疗保健应用中表现更好,这些应用通常具有大量高维,例如图像识别或基因预测。不管是什么原因,目前要求对医疗保健中的黑盒 AI/ML 系统进行解释需要使用事后可解释的 AI/ML 模型,这也是我们在此警告不要使用的。 可解释算法是一个相对较新的研究领域,科技公司和研究人员的大部分注意力都放在算法本身的开发上——工程——而不是影响最终结果的人为因素。可解释的 AI/ML 的主要论点是它有助于用户理解、建立信任并支持问责制([3][3]、[4][4])。不幸的是,目前可解释的 AI/ML 算法不太可能实现这些目标——至少在医疗保健领域——有几个原因。### Ersatz 理解可解释的 AI/ML(与可解释的 AI/ML 不同)提供了事后算法生成的黑盒原理预测,这不一定是这些预测背后的实际原因或与它们有因果关系。因此,可解释性的明显优势是“傻瓜的黄金”,因为黑匣子的事后合理化不太可能有助于我们对其内部运作的理解。相反,我们可能会留下我们更了解它的错误印象。我们将来自事后合理化的理解称为“替代理解”。与可以事先确认 AI/ML 结果的解释质量的可解释 AI/ML 不同,可解释 AI/ML 没有这样的保证。不可能事先确保对于任何给定的输入,相关输出的用户可以理解由可解释的 AI/ML 算法生成的解释。通过不提供打开黑匣子的理解,或揭示其内部运作,这种方法并不能保证提高信任度和消除任何潜在的道德、伦理或法律问题。在某些情况下,替代理解的问题可能不是问题。例如,研究人员可能会发现通过黑盒算法的许多不同近似来生成可测试的假设有助于推进研究或改进 AI/ML 系统。但这与监管机构要求基于 AI/ML 的医疗设备的可解释性作为其营销授权的前提条件截然不同。### 缺乏稳健性对于可信任的可解释算法,它需要表现出一定的稳健性。在这里,我们的意思是可解释性算法通常应该为相似的输入生成相似的解释。然而,对于输入的非常小的变化(例如,在图像的几个像素中),近似可解释的 AI/ML 算法可能会产生非常不同且可能相互竞争的解释,即使专家也不一定能证明或理解这种差异.使用这种基于 AI/ML 的医疗设备的医生自然会质疑该算法。### 与问责制的微弱联系人们经常认为可解释的 AI/ML 支持算法问责制。如果系统犯了错误,我们的想法是,追溯我们的步骤并描述导致错误的原因和责任人会更容易。虽然这通常适用于设计透明的可解释 AI/ML 系统,但对于可解释 AI/ML 系统却并非如此,因为这些解释是事后的基本原理,只能不完美地近似驱动决策的实际功能。从这个意义上说,可解释的 AI/ML 系统可以用来混淆我们对错误的调查,而不是帮助我们理解其来源。由于现代 AI/ML 系统依赖于多个组件,每个组件本身可能都是一个黑匣子,因此需要事实发现者或调查员识别,然后结合,进一步削弱了可解释性和问责制之间的关系,一系列部分事后解释。因此,将可解释性与问责制联系起来可能会被证明是一种红鲱鱼。 可解释的 AI/ML 系统不仅不太可能产生通常吹捧的好处,而且还会带来额外的成本(与可解释系统或使用黑盒模型相比)单独而不试图合理化他们的输出)。### 在不完美的用户手中误导即使解释看起来可信,或者几乎可信,当结合不完全理性用户的先验信念时,它们仍然可能使用户远离真正的理解模型的。例如,普通用户容易受到叙事谬误的影响,用户以误导性的方式组合和重构解释。医疗逆转的悠久历史——发现医疗实践并非一直有效,要么未能实现其预期目标,要么带来的危害大于收益——提供了医疗保健中叙述谬误风险的例子。相关地,以看似简单的事后基本原理形式进行的解释可能会产生(过度)自信的错误感觉。由于用户无法通过 AI/ML 系统经常提供的概率预测进行推理([11][11]),或者用户对自动化流程的过度尊重([2][2]),这可能会进一步加剧这种情况。所有这些都变得更具挑战性,因为解释有多个受众,并且很难生成对所有人都有帮助的解释。### 至少在某些任务中表现不佳如果监管机构决定唯一可以上市的算法是那些其预测可以以合理的保真度进行解释,因此它们将系统开发人员限制在 AI/ML 算法的某个子集上。例如,在这样的制度下,在数据空间的足够大的区域中难以近似的高度非线性模型可能因此被禁止。在复杂模型(如深度学习或集成方法)的表现并不特别优于其简单模型(具有结构合理的数据和有意义的特征,例如基于相对较少的患者医疗记录的预测)的情况下,这将很好([8][ 8])。但在其他情况下,尤其是在具有大量高维的情况下(例如图像识别或基因序列分析),将自己限制在可以充分解释的算法上可能会过度限制模型复杂性并破坏准确性。 如果可解释性不应该成为 AI 的严格要求/ML 医疗保健,然后呢?像 FDA 这样的监管机构应该关注 AI/ML 系统的那些直接关系到其安全性和有效性的方面——特别是它在其目标用户手中的表现如何?为实现这一目标,监管机构应更加重视精心设计的临床试验,至少对于一些风险较高的设备,而不是 AI/ML 系统是否可以解释([12][12])。到目前为止,大多数基于 AI/ML 的医疗设备已通过 510(k) 途径获得 FDA 批准,只需要证明与合法上市(谓词)设备的实质等效性,通常不需要任何临床试验([13] ][13]).另一种方法是在个人与模型交互时为他们提供额外的灵活性——例如,允许他们请求 AI/ML 输出以获取输入的变化或附加数据。这鼓励了用户的支持并加强了模型的稳健性,我们认为这与建立信任更密切相关。这是提供洞察模型内部工作的不同方法。这种交互过程在医疗保健领域并不新鲜,它们的设计可能取决于特定的应用程序。这种过程的一个例子是使用计算机决策辅助工具在妊娠生存能力的限制下进行产前咨询的共享决策。新生儿科医生和准父母可能会以这种方式一起使用决策帮助,以显示各种不确定性将如何影响“在生存能力极限下复苏婴儿的风险:收益比”([14][14])。这反映了一种现象,越来越多的证据表明,允许个人与算法交互会减少“算法厌恶”,并使他们更愿意接受算法的预测([2][2])。###从医疗保健到其他设置我们的论点特别针对医疗保健的情况。这部分是因为医疗保健应用程序往往依赖于大规模的高维预测算法,如果一个人坚持使用足够简单的解释进行良好的黑盒近似的能力,并且专业水平各不相同,那么准确度损失的可能性就特别大。此外,与许多其他部门相比,医疗保健领域的错误分类成本和对患者的潜在伤害相对较高。最后,医疗保健传统上有多种方式来证明产品或过程的可靠性,即使没有解释。许多 FDA 批准的药物都是如此。我们可能会认为医疗 AI/ML 更像是一种信用商品,其使用的认知保证是对其他人的信任,而不是对其运作方式的理解。例如,许多医生可能对导致 FDA 相信某种处方药是安全有效的潜在临床试验设计或结果非常无知,但他们知道它已获得 FDA 批准并且其他专家对其进行了进一步审查并使用它为信任该药物提供了必要的认知保证。但是,就其他领域共享其中的一些特征而言,我们的论点可能会更广泛地适用,并且也可为医疗保健以外的监管机构提供一些经验教训。### 何时需要可解释的 AI/ML 医疗保健是一个广阔的领域。许多 AI/ML 预测都是为了支持诊断或治疗。例如,Biofouris 的 RhythmAnalytics 是一种在心电图上训练的深度神经网络架构,可以预测超过 15 种类型的心律失常([15][15])。在这种情况下,准确性很重要,当黑盒比白盒获得更高的准确性时,理解就不那么重要了。然而,其他医疗应用则不同。例如,想象一个 AI/ML 系统,它使用对患者肾脏损伤程度的预测来确定谁有资格使用有限数量的透析机。在这种情况下,当存在对正义的总体关注时——即,我们应该如何公平地分配资源——关于如何做出决策的事前透明度可能特别重要或监管机构要求。在这种情况下,最好的标准是从一开始就简单地使用可解释的 AI/ML,并有明确的预定程序和决策原因。在这种情况下,即使可解释的 AI/ML 不太准确,我们也可能更愿意牺牲一些准确性,即我们为程序公平付出的代价。我们认为,目前对医疗保健可解释性的热情可能被夸大了:它的好处不是它们出现了什么,其缺点值得强调。至少对于基于 AI/ML 的健康医疗设备而言,最好不要将可解释性视为一项硬性要求,而是关注其安全性和有效性。医疗保健专业人员应该警惕向他们提供的关于黑盒 AI/ML 模型的解释。医疗保健专业人员应努力尽可能更好地了解 AI/ML 系统,并就 AI/ML 如何改变医疗保健领域进行自我教育,但需要可解释的 AI/ML 很少有助于实现这一目标。 1。 [↵][16]1. S. Benjamens, 2. P. Dhunnoo, 3. B. Meskó, NPJ Digit。医学。 3, 118 (2020)。 [OpenUrl][17][PubMed][18]2。 [↵][19]1. BJ Dietvorst, 2. JP Simmons, 3. C. Massey,管理。科学。 64, 1155 (2018)。 [OpenUrl][20]3. [↵][21]1。 AF Markus, 2. JA Kors, 3. PR Rijnbeek, J. Biomed。通知。 113, 103655 (2021)。 [OpenUrl][22][PubMed][18]4。 [↵][23]1。 MT Ribeiro, 2. S. Singh, 3. C. Guestrin ,在 KDD '16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (ACM, 2016), pp. 1135–1144。 5. [↵][24]1。 A. Bohr, 2. K. Memarzadeh 1. S. Gerke,2. T. Minssen,3. IG Cohen,医疗保健人工智能,A. Bohr,K. Memarzadeh,Eds。 (爱思唯尔,2020 年),第 295-336 页。 6. [↵][25]1。 Y. Lou, 2. R. Caruana, 3. J. Gehrke,在 KDD '12: Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (ACM, 2012),第 150-158 页。 7. [↵][26]1。 ZC Lipton,ACM 队列 16, 1 (2018)。 [OpenUrl][27]8。 [↵][28]1。 C. 鲁丁,纳特。马赫。英特尔。 1, 206 (2019)。 [OpenUrl][29]9. [↵][30]1. D. Martens, 2. F. 教务长,管理。信息系统。 Q. 38, 73 (2014)。 [OpenUrl][31]10。 [↵][32]1. S. Wachter, 2. B. Mittelstadt, 3. C. Russell, Harv. J. 法律技术。 31, 841 (2018)。 [OpenUrl][33]11。 [↵][34]1. RM 哈姆,2. SL 史密斯,J. Fam。练习。 47, 44 (1998)。 [OpenUrl][35][PubMed][36]12。 [↵][37]1. S. Gerke,2. B. Babic,3. T. Evgeniou,4. IG Cohen,NPJ Digit。医学。 3, 53 (2020)。 [OpenUrl][38]13。 [↵][39]1. UJ Muehlematter,2. P. Daniore,3. KN Vokinger,Lancet Digit。健康 3, e195 (2021)。 [OpenUrl][40]14。 [↵][41]1。 U. Guillen,2. H. Kirpalani,Semin。胎儿新生儿医学。 23, 25 (2018)。 [OpenUrl][42][PubMed][18]15。 [↵][43]Biofouris, RhythmAnalytics (2020); [www.biofouris.com/solutions/][44]。致谢:我们感谢 S. Wachter 对本手稿早期版本的反馈。所有作者均对论文的分析和起草做出了同等贡献。 F ......