5月12日,2021年第19卷,第2期儿童佩戴太阳镜被标记为A"失败,失败者,无星期,不成功的人。"这只是Imagenet轮盘赌的众多系统偏差之一,这是一个艺术项目,该项目通过从原始ImageNet数据库中获取其识别系统来应用于用户提交的照片。 7 Imagenet是推进AI的乐器数据集之一,已从其&#34中删除了超过500万只图像;人"自此实例报告的类别以来2019年底。2019年早些时候,研究人员展示了Facebook' S广告服务算法如何决定谁显示给定的广告展示了基于比赛,性别和用户宗教的歧视。 1关于商业面部识别软件(特别是亚马逊'在重新识别)上有报告偏向于黝黑的女性。 6,22
这些示例在迅速生长的工作体内提供了暴露与AI系统相关联的偏差的快速生长的工作体,但偏置算法系统不是一种新的现象。作为一个例子,1988年英国的种族平等委员会发现了一所英国医学院犯有歧视罪,因为用于签出访谈候选人的算法被偏向于妇女和申请人的非欧洲名称。 17.
随着各种部门的AI快速采用,包括在司法和医疗保健,技术人员和决策者中提出了关于缺乏与基于AI的决定相关的问责制和偏见的担忧。从AI研究人员和软件工程师到产品领导者和消费者,各种利益相关者都参与了AI管道。 AI,数据集和策略和权利景观周围的必要专业知识,这些专业和权利景观在这些利益相关者之间不统一地提供统一的偏见。因此,AI系统中的偏差可以不显眼的化合物。
例如,考虑该管道中ML(机器学习)开发人员的关键作用。他们被要求提供:适当地预处理数据,从多个可用的,调谐参数和调整模型架构中选择正确的模型,以满足应用程序的要求。假设ML Developer委托开发AI模型以预测将默认的贷款。在培训数据中不知不觉,工程师可能只使用验证准确性无意中培训模型。假设培训数据包含太多违约的年轻人。在这种情况下,该模型可能在应用于测试数据时对年轻人默认进行类似的预测。因此需要教育ML开发人员关于可以蠕变到AI管道的各种偏差。
在AI系统中定义,检测,测量和缓解偏差不是一项容易的任务,并且是一个有效的研究领域。 4各地政府,非营利组织和行业正在开展一些努力,包括执行法规,以解决与偏见有关的问题。由于工作进行了在各种社会机构和途径中认识和解决偏见,因此努力确保计算系统旨在解决这些问题。
本文的广泛目标是教育非omain专家和从业者,如ML开发人员,这些专家可以在AI管道的不同阶段发生各种类型的偏差,并建议用于缓解偏差的清单。与公平算法的设计有一个巨大的文学。 4本文作为辅助ML开发人员的指示,重点不是公平AI算法的设计,而是对实际方面的设计,而是在问题制定,数据创建,数据分析和评估期间可以遵循限制和测试偏差。具体而言,贡献可以概括如下:
•AI管道中偏差的分类。提供了可以将各种偏差的结构组织提供在可以蠕变到AI管道中的各个阶段,从数据创建和问题制定到数据准备和分析。
•弥合研究与实践之间差距的指导方针。阐明阐明与现实世界中的研究思想相关的挑战的分析,以及建议的填补这种差距的做法。提供了可以帮助ML开发人员在测试各种偏见的ML开发人员的指导方针。
这项工作的目标是提高偏见周围的意识和实践技能,迈向AI系统的明智使用和采用。
典型的AI管道从数据创建阶段开始:(1)收集数据; (2)注释或标记; (3)将其准备或加工成可由其余管道消耗的格式。 Let' S分析了这些步骤中的每一个中可以引入不同类型的偏差。
通过选择特定类型的实例(以及由此呈现现实世界的代表性代表的数据集)来创建的数据集中出现的偏差被称为采样偏差。这是最常见的数据集偏差之一。数据集通常使用特定的一组实例创建。例如,图像数据集更喜欢街景或自然场景。图25所示的面部识别算法可以用比深色皮肤的面孔更多的轻皮面的照片喂养,从而导致识别较深皮肤的面孔的性能差。因此,采样偏置可以导致学习算法的广泛性差。
测量偏差由人类测量中的误差引入,或因为捕获数据中的人们某些内在习惯。例如,考虑创建图像和视频数据集,其中图像或视频可以反映摄影师使用的技术。例如,一些摄影师可能倾向于以类似的方式拍摄物体的照片;结果,数据集可能仅包含特定角度的对象视图。在2011年的纸张"无偏见的看看数据集偏见," Antonio Torralba和Alexei A. efros将此类型的测量偏差称为捕获偏差。 25.
另一个测量源极可能是用于捕获数据集的设备的结果。例如,用于捕获图像的摄像机可能有缺陷,导致质量差的图像,从而有助于偏置结果。这些类型的偏差被广泛地分类为设备偏置。
在使用代理而不是创建数据集时,可以发生第三种类型的测量偏差。例如,经常使用逮捕率而不是犯罪率;博士访问和药物用作医疗条件等指标。
标签偏差与标签过程中的不一致相关联。不同的注释器具有不同的样式和首选项,可在创建的标签中反映。当不同的注释器分配不同标签到相同类型的物体(例如,Grass与草坪,绘画与图片)时,出现了标签偏置的常见实例。 25.
当评估者的主观偏差影响标记时,可以发生另一种类型的标签偏差。例如,在一项关于文本中经历的情绪的任务中,标签可以被诸如文化,信仰和内省能力的增值符的主观偏好偏见。 24确认偏见,21,其中是人类搜索,解释,重点关注的人类倾向,并以确认一个' s先入为主的方式记住信息,与这种类型的标签偏差密切相关。因此,可以基于先前的信仰而不是客观评估来分配标签。
从峰值结束效果可能出现第三种标签偏置。这是一种与内存相关的认知偏见的类型,人们在这主要判断了一系列经验,这主要是他们在其峰值(即,它最强烈的点)和结束时,而不是基于每一刻的总和或平均值体验。 15例如,某些注释器可以在分配标签时对对话的最后一部分(而不是整个对话)提供更多重要性。 24.
Torralba和eFros定义负面集偏差,因为由于没有足够的样本代表"世界其他地区的样本集。" 25作者说明了那个"数据集不仅仅是由它(正面实例)的现象(例如,对象,场景,事件),还可以通过它不是(负实例)。"因此,学习的分类器可以在检测负面情况下表现不佳。
基于如何定义问题,可以出现偏差。考虑由Karen Hao的MIT技术评论中提出的以下示例。 13假设信用卡公司希望使用AI预测客户'信誉。为了这样做,必须以可以为&#34的方式定义信誉。预测或估计。"该问题可以根据公司想要的是,最大化其利润率或最大限度地偿还偿还的贷款人数;然而,"这些决定是针对公平或歧视以外的各种商业原因而制定的,"康奈尔大学说,Solan Barocas专门从事公平。
以前的信用案例可以被认为是一种框架效应偏差。 21基于如何制定问题以及如何提出信息,所获得的结果可以不同,也许偏置。另一个值得注意的例子是Compas(替代制裁的惩教罪犯管理分析)辩论8关于Northpointe之间的公平性定义(现在称为等价愿意),这提出了评估累犯风险的Compas分数,以及Propublica声称Compas系统被偏见。 Propublica声称NorthPointe' S方法因黑人被告而偏向,因为该组与较高的假阳性率相关。有几个公平度的指标,Propublica表示,Northpointe' S系统违反了均衡的赔率和机会公平标准的平等。从预测率平价的角度来看,北港和#39;主要防守是该分数满足的公平。因此,基于问题的方式及其成功度量来实现偏差。
通过选择个体,组或数据进行分析来引入样品选择偏压,以便样品不代表旨在分析的人口。具体而言,由于在数据集(例如,特定肤色,性别等)中的一些变量上调节,在数据分析期间发生样品选择偏差,这又可以产生虚假相关性。例如,在分析母性对工资的影响时,如果该研究仅限于已经雇用的妇女,那么在受雇于妇女的调节后,测量的效果将被偏见。 9常见类型的样本选择偏置包括Berkson' S悖论20和样品截断。 9.
如果算法通过不考虑数据中的所有信息,或者它错过了特征和目标输出之间的相关关系,则偏差可以在AI模型中出现错误的关系。 20混淆偏差源自影响输入和输出的共同原因。考虑一个方案,其中对研究生院的招生是基于此人和之前的等级点平均值。然而,可能还有其他因素,例如获得教练的能力,这反过来可能取决于比赛等敏感属性;这些因素可以确定成绩点平均和入场率。如图16所示,引入了输入和输出之间的虚假关系,因此可以导致偏差。
一种特殊类型的混淆偏差是省略的变量,当某些相关特征不包括在分析中时发生。这也与模特底层的问题有关。
另一种类型的混杂偏压是代理变量。即使诸如竞赛,性别等的敏感变量也不被考虑决策,分析中使用的某些其他变量可能是"代理"对于那些敏感的变量。例如,邮政编码可能指示比赛,因为某种种族的人们可能主要生活在某个街区。这种类型的偏差通常也称为间接偏置或间接辨别。
有时,由于诸如计算能力的系统上的算法限制或其他约束而发生偏差。此类别中的一个值得注意的条目是算法偏置,其可以被定义为单独诱导或由算法添加的BAIS。在1996年的纸张"计算机系统中的偏见," Batya Friedman and Helen Nissenbaum 10提供了一个例子:依赖于航班分布的随机性的软件并非真正随机;例如,通过对列表结束或开头的项目偏向项目,结果可以变偏见。
另一种类型的设计相关偏差是排名偏见。 18例如,可以理解为每个屏幕显示三个结果的搜索引擎来特权,前三个结果略高于接下来的三个结果。 10排名偏差也与呈现偏差,18源自介绍,其中您只能在向用户呈现的项目上接收用户反馈。即使在示出的那些中,接收用户反馈的概率也进一步影响了项目的位置。 2
几种类型的偏差是由人类评估符中固有的偏差,以及选择这些评估者(样品处理偏见)。
通常,人类评估人员在验证AI模型的验证方面。现象如确认偏差,峰值终点效应和先前信仰(例如,培养)可以在评估中产生偏见。 15人类评估人员也受到他们可以回忆多少信息,这可能导致召回偏差。
有时,可以偏置选择用于评估算法的测试集。 3例如,在推荐系统中,某些特定观众(例如,那些说出某种语言)的特定观众可能会显示出广告,有些则可能不会。因此,观察到的效果不会代表对一般人群的真正影响。在选择性地使某些人的过程中引入的偏差被称为一种治疗类型称为样品处理偏差。
偏差也可以从验证和测试数据集中的样本选择和标记偏差引起。 25通常,与数据集创建阶段相关联的偏差也可以在模型评估阶段显示。此外,评估偏差可能是由于选择不适当的基准/数据集进行测试。
图1提供了沿着前一节中讨论的AI管道的各个阶段的偏差分类的图示。
尽管AI社区内部努力解决了与偏见相关的挑战,但几个差距妨碍了集体进展。下一节突出了这些差距中的一些。
已经提出了对计数数据集偏置问题的方法,因为具有强调维持多样性的新数据集。例如,多样性的DataSet由距离雅虎的人的近一百万图像组成Flickr Creative Commons DataSet,专门组装,以实现肤质,面部结构,年龄和性别类别的统计阶段。在他们的2019年纸上,"挖掘ai,"然而,Kate Crawford和Trevor Paglen质疑使用用于创建此数据集的Cranio-Metrical功能,因为这些功能也可能是种族偏见的代理。 7作者进一步提供了对与多个基准数据集有关的问题的关键审查。
"机器学习的公平性"是一个活跃的研究领域。还有致力于主题的会议和研讨会。完全概述机器学习的公平超出了本调查的范围。广泛概述了在分类中实现公平性的公平和方法的各种算法定义,请咨询Barocas等人。 4还有开源工具,如IBM' S AI公平360 5,促进了对不需要的算法偏差的检测和减轻。尽管有这些努力,但有着显着的差距,正如Pratik Gajane和Mykola Pechenizkiy在他们的2018年纸上所指出的,"关于在机器学习预测中的正式化公平。 11.
已经提出了练习准则来减少AI系统的潜在偏见。这些包括"数据集&#34的事实表;来自IBM,和"数据集的数据表,"用于分享有关用于培训AI模型的数据集的基本信息的方法。 12在2019年的纸张中,Margaret Mitchell等。建议使用发布模型的详细文档以鼓励透明度。 19.
Kenneth Holstein等。识别在实践中团队面临的挑战和展示中提出的解决方案之间的挑战和脱节领域。 14提交人敦促未来的研究应该专注于支持从业者收集和策划高质量数据集。作者进一步看到了需要创建特定于域的教育资源,指标,流程和工具。在这种精神,本文旨在成为ML开发人员在理解AI管道中的各种偏见来源的教育资源。
虽然可能无法消除所有偏差来源,但有一些预防措施,可以减少一些偏置问题。以下是一些可以帮助ML开发人员在识别潜在偏见的潜在来源以及帮助避免不需要的偏差的引入时:
•在定义和检测偏差方面纳入特定于域的知识是至关重要的。要了解数据集中的各种功能之间的结构依赖性非常重要。通常,它有助于绘制说明兴趣的各种特征及其相互依赖性的结构图。然后,这可以帮助识别偏差源。 20.
•了解数据基于应用敏感的数据的特征也很重要。例如,年龄可能是确定谁获得贷款的敏感特征,但不一定在确定谁获得医疗。此外,可能存在代理特征,虽然未被认为是敏感的特征,但仍然可以编码敏感信息,以便呈现偏置预测。
•尽可能用于分析的数据集应代表所考虑的真正人口。因此,必须在构建代表性数据集中进行护理。
•必须制定适当的标准来注释数据。规则必须定义,以便尽可能地从注释器中获取一致的标签。
•识别可能与感兴趣的目标特征相关联的所有功能都很重要。省略具有目标功能依赖关系的变量导致偏置估计。
•与输入和输出相关联的功能可能导致偏置估计。 在这种情况下,通过在选择输入时,通过适当的数据调节和随机化策略消除这些混淆偏差来源非常重要。 20. •将数据分析限制为数据集的某些截短部分可能会导致不需要的选择偏差。 因此,在选择用于分析的数据子集时,必须注意不要引入样品选择偏差。 •在验证如A / B检验中的型号的性能方面,必须注意防范样品处理偏差的引入。 换句话说,在测试模型的性能时,测试条件不应该休息 ......