很多常用的人工智能(AI)都致力于预测人们的行为。它试图预测你的下一次购买、下一次鼠标点击、下一次工作调动。但是,当这些技术用于分析健康和发展项目的数据时,可能会遇到问题。如果我们不知道行为的根本原因,我们很容易做出糟糕的决定,支持无效和有偏见的政策。
例如,人工智能使医疗保健系统能够预测哪些患者可能有最复杂的医疗需求。在美国,风险预测软件正被应用于大约2亿人,以预测哪些患者现在将从额外的医疗保健中受益,这是基于他们未来可能给医疗体系带来的成本。它采用预测机器学习,这是一类自适应算法,在提供新数据时提高了它们的准确性。但是,正如健康研究人员Ziad Obermeyer和他的同事在最近发表在“科学”杂志上的一篇文章中所表明的那样,这种特殊的工具有一个意想不到的后果:患有比白人患者更多慢性病的黑人患者没有被标记为需要额外护理。
哪里出了问题?该算法使用保险索赔数据,根据患者最近的医疗费用预测患者未来的健康需求。但该算法的设计者没有考虑到,美国黑人的医疗支出通常低于健康状况相似的美国白人,原因与他们的病情无关-例如获得医疗保健的障碍、医疗保健不足或缺乏保险。使用医疗费用作为疾病的代替品,导致预测算法做出了对白人患者准确的建议-较低的医疗支出是健康状况减少的结果-但在对黑人患者的护理中延续了种族偏见。研究人员通知了制造商,制造商使用自己的数据进行了测试,确认了这个问题,并与研究人员合作,消除了算法中的偏差。
这个故事说明了某些类型的人工智能的危险之一。无论预测算法多么复杂,它们的用户都可能落入将相关性等同于因果关系的陷阱-换句话说,认为因为事件X先于事件Y,所以X一定是Y的原因。预测模型对于建立事件和结果之间的相关性很有用。它说,“当我们观察X的时候,我们可以预测Y将会发生。”但这并不等同于表明Y是因为X而发生的。在医疗算法的情况下,白人患者的较高发病率(X)与较高的医疗费用(Y)是正确相关的。X导致Y,因此使用医疗费用作为未来疾病和医疗需求的预测是准确的。但对于黑人患者来说,更高的发病率通常不会导致更高的成本,而且算法也不能准确预测他们未来的医疗需求。有相关性,但没有因果关系。
随着世界越来越多地转向人工智能来帮助解决紧迫的健康和发展挑战,这一点至关重要。当相关性被误认为因果关系时,在医疗保健、司法和农业等不同领域单纯依赖人工智能的预测模型可能会带来毁灭性的后果。因此,决策者还必须考虑另一种人工智能方法-因果人工智能,它可以帮助识别精确的因果关系。识别结果的根本原因并不是因果人工智能的唯一优势;它还使建模可以改变这些结果的干预成为可能,方法是使用因果人工智能算法来询问假设问题。例如,如果实施特定的培训计划来提高教师能力,我们应该期望学生的数学考试成绩提高多少?模拟情景以评估和比较干预措施(或干预组)对结果的潜在影响,可以避免在现场进行冗长测试的时间和费用。
当然,如果应用和使用得当,预测性人工智能算法可以发挥重要作用。精准农业就是一个很好的例子,它使用预测性人工智能来处理来自卫星图像和传感器的数据,以帮助农民预测作物产量,检测疾病和杂草,并识别不同的植物物种。但是,能够预测结果并不等同于了解是什么导致了结果。预测今年农民的作物产量将会降低是一回事,理解为什么会有可能采取措施增加收成是一回事。
只使用预测模型的另一个挑战是从根本上缺乏关于它们为什么首先做出特定预测的知识。这是深度学习的问题-这种预测性人工智能在精准农业中发挥作用。人类脑细胞的组织方式激发了深度学习的灵感
仔细观察一下因果人工智能,就会发现它是如何打开人工智能纯预测性模型运作的黑匣子的。因果人工智能可以超越相关性,突出因果之间的精确关系。
检验因果关系的重要性在卫生和发展部门都不是什么新鲜事。一种直接的方法是对随机分配到一个人群组(称为治疗组)的人进行干预,而对其他相同的组(称为控制组)不进行干预。通过比较两组的结果,可以分离出干预的效果。在临床研究中,这被称为随机对照试验,而在市场研究中,这被称为A/B试验。
发展经济学家迈克尔·克雷默(Michael Kremer)、阿比吉特·班纳吉(Abhijit Banerjee)和埃斯特·迪弗洛(Esther Duflo)因率先应用随机对照试验来确定发展问题的根本原因并设计解决方案而获得2019年诺贝尔经济学奖。这样的审判颠覆了一些关于因果关系的传统观点。例如,大量的观察性研究已经确定了维生素D缺乏与糖尿病、高血压、心血管疾病和癌症风险增加之间的联系。但随机对照试验表明,维生素D补充剂并不能降低这些疾病的风险-他们没有发现维生素D补充剂和健康结果之间的因果联系。
然而,随机对照试验有其局限性。大量的个人被要求确保结果不会受到年龄、性别、健康状况或教育水平等巧合的异常值特征的偏见或影响。这往往会使这样的试验极其昂贵(数百万美元)和耗时(它们可能需要数年时间才能进行)。此外,随机对照试验一次只能测试一个或最多几个捆绑干预措施的效果,尽管事实上健康和社会结果是复杂的,有许多潜在的驱动因素。最后,他们只能预测干预是否会对治疗组的典型成员产生影响,而不是对特定的个人产生影响。
这就是因果人工智能发挥作用的地方。它提供了新的机会,可以更快、更有效地测试个人和群体之间的因果关系,以及解开潜在复杂性的能力。它允许研究人员和程序设计者模拟干预,并通过依赖已有的数据推断因果关系。
有两种基于长期已知原则的因果人工智能方法:潜在结果框架和因果图模型。这两种方法都可以使用真实世界的数据来测试潜在干预的效果。使它们成为人工智能的是用于揭示大数据集中因果模式的强大底层算法。但他们可以测试的潜在原因的数量有所不同。
为了理解这两种方法的工作原理-以及它们的差异-考虑一下以下假设情景:研究人员想要发现是否有禁烟广告活动说服人们戒烟,但没有控制组,因为广告是在全国范围内发布的。他们只有一个数据集,显示个人是否接触到广告,他们是否戒烟,以及他们的人口统计和其他健康行为的信息。即使没有控制组,因果人工智能也提供了推断因果关系的方法。
统计学家保罗·罗森鲍姆(Paul Rosenbaum)和唐纳德·鲁宾(Donald Rubin)于1983年提出的潜在结果框架,将暴露在感兴趣的事业(禁烟广告)中的个人的结果(戒烟)与未暴露于感兴趣的个人的推断的“潜在结果”进行比较。当然,挑战是没有关于实际接触过这场运动的人的非暴露结果的数据。因此,对于每个接触过广告的人,人工智能算法会在数据集中找到一个没有接触过广告,但在其他重要方面(如年龄、种族和教育)相同的人。换句话说,对人工控制组进行反向工程,以模拟随机对照试验。限制是,虽然它能够解决没有控制组的问题,但潜在结果框架一次只能测试一个预先指定的干预措施的效果-在这种情况下,广告活动是否导致该人决定戒烟?
相比之下,因果图模型可以做的不仅仅是测试一对变量的因果关系。它们可以用作探索性工具,将所有不同的因果路径映射到感兴趣的结果,并显示不同的变量如何相互关联。将因果图应用到我们的禁烟运动中可能会显示,在药店接触到广告会导致一些人直接戒烟,但另一些人会购买尼古丁贴片,这反过来又会导致他们戒烟。
有几种因果图模型。一种广泛使用的方法是结构方程模型,在该模型中,研究人员指定可能相互作用的变量以及它们可能如何相互作用,然后该模型分析数据,以揭示它们是否确实存在相互作用。虽然此模型可以测试数据中的许多这样的关系,但需要使用现有知识指定不同变量之间交互的整个网络。该模型的局限性在于它只测试假设变量之间的联系:如果实际导致影响的变量没有包括在指定的变量中,则不会根据其他选项对它们进行评估。
另一种因果图方法是因果贝叶斯网络,这是一个由计算机科学家和哲学家朱迪亚·珀尔在20世纪80年代创造的术语,以18世纪英国统计学家托马斯·贝叶斯的名字命名。该方法估计数据集中所有变量之间的关系。它产生直观的可视地图,显示哪些变量相互影响,以及它们的影响程度。这种方法的优点是,与结构方程模型不同,这些交互作用不需要在测试之前指定,这使其成为一种真正的发现方法。
虽然因果贝叶斯网络需要大量的数据来捕捉可能变量的宇宙,但这种方法的潜力是令人兴奋的,原因有几个。它支持以数据驱动的方式同时发现多个因果关系。在禁烟广告运动的例子中,因果贝叶斯网络可能会显示广告和不同戒烟方法的可用性是如何影响人们的行为的,或者它可能会揭示个人愿望是如何发挥作用的。同样重要的是,与预测性人工智能的黑匣子不同,在因果人工智能方法中,研究人员、计划实施者和政策制定者可以看到变量(接触广告、尼古丁贴片的可用性)和结果(戒烟)之间的关系。
因果图形模型还可以同时模拟多种可能的干预。例如,如果不同的禁烟广告针对不同的年龄段,或者将一般运动与同伴教育者的推广相结合,会怎么样?它们还允许纳入专家知识,以对抗纯粹数据驱动的方法可能存在的局限性。例如,专家可以帮助确定哪些变量应该进入模型,他们可以对模型设置条件以提高其准确性,他们还可以帮助理解违反直觉的结果。
因果人工智能领域正在迅速发展。随着它的潜力变得更加明显,研究人员正在将它应用于气候变化和健康等不同领域,展示了它的广阔潜力。
气候变化|因果人工智能技术已经应用于气候变化,以了解人类是否以及如何是其原因之一,以及是什么推动了人们对气候变化的信念。为了调查这个问题,英国科学家在潜在结果框架中使用了一种名为反事实事件归因的因果人工智能技术,以确定人类产生的温室气体排放是否是2003年欧洲致命热浪的根本原因,据一些人估计,这场热浪导致了7万多人死亡。利用历史数据、太阳数据、火山喷发信息和温室气体、气溶胶和臭氧的大气数据,研究人员模拟了2003年欧洲各地的夏季温度,有没有人类的影响。他们发现,与排除这些影响相比,当模型包括航空旅行或电力生产等活动时,热浪发生的可能性要大得多。发表于2004年的这项研究是将极端天气事件与人类活动联系起来的首批研究之一,它为减少此类活动产生的温室气体提供了有力的论据。联合国政府间气候变化专门委员会引用了这项研究。
因果人工智能还确定了导致人们对气候变化的信念变得更加两极分化的因素。研究人员对来自美国和澳大利亚的参与者进行了调查,并使用贝叶斯网络对不同的人如何回应一系列关于气候变化的信息进行了建模。他们发现,当在网上提供关于气候变化的共识信息时,
儿童腹泻|因果人工智能提供了解决其他方法未获成功的广泛而复杂的健康问题的机会。儿童腹泻就是一个例子。这种疾病是全球5岁以下儿童死亡的第二大原因。许多因素与腹泻有关,但要理清腹泻疾病的生物学和结构性致病途径是极具挑战性的。这使得设计有效的干预措施变得困难。
巴基斯坦的一项研究使用了来自15000多个家庭的11万多人的全国调查数据。这项调查包括家庭、社会、环境和经济变量。当使用多元回归(一种传统的统计技术)时,研究人员发现了12个与腹泻显著相关的家庭变量。然而,这些并不容易解释:例如,其中一个变量是家庭中的房间数量。相比之下,用因果贝叶斯网络分析相同的数据集产生了一张网络图,揭示了直接影响儿童腹泻疾病的三个变量:使用干坑厕所而不是连接到下水道的厕所;依赖管道、河流或溪水以外的水源;以及缺乏正式的垃圾收集。如果在社会上或国家政策中纳入这些见解,这些见解可能导致有效的干预措施,以减少儿童腹泻疾病。
孕产妇和新生儿死亡率|在许多低收入国家,母亲及其新生儿的死亡率仍然居高不下。妇女在卫生保健机构接生对母婴的生存和福祉都至关重要。通过一项国家激励计划,支付家庭在设施中接生(医院接生本身为300印度卢比(约合4美元),如果母亲也利用产前护理,还会再支付300印度卢比),印度政府已经能够迅速提高机构接生率。然而,在印度的许多邦,这一趋势已经稳定在80%左右。
在苏戈基金会,我们试图理解为什么女性不选择机构分娩,以及需要哪些额外的干预措施才能让她们这样做。我们的工作使用了各种技术,包括因果人工智能,来确定为什么有些人。
.