正如最近发布的GPT-3和最近的几项研究表明,种族偏见,以及基于性别、职业和宗教的偏见,可以在流行的NLP语言模型中找到。但一组人工智能研究人员希望NLP偏见研究界在他们的工作中更仔细地检查和探索语言、权力和种族主义等社会等级之间的关系。这是最近的一项研究对NLP偏见研究人员提出的三个主要建议之一。
上周发表的这项工作,包括对146篇NLP偏见研究论文的分析,还得出结论,研究领域通常缺乏对偏见的明确描述,也没有解释这种偏见是如何、为什么以及对谁有害的。“尽管这些论文通过说明NLP系统可能有害的一些方式奠定了重要的基础,但它们中的大多数没有从一开始就批判性地接触到什么构成了‘偏见’,”论文写道。“我们认为,这样的工作应该检查语言和社会等级之间的关系;我们呼吁从事这类工作的研究人员和实践者阐明他们对‘偏见’的概念,以便能够就哪些类型的系统行为有害、以何种方式有害、对谁有害以及为什么有害进行对话;我们建议技术专家和受NLP系统影响的社区之间进行更深入的接触。”
作者建议NLP研究人员加入其他学科,如社会语言学、社会学和社会心理学,研究种族主义等社会等级制度,以便了解语言是如何被用来维持社会等级制度,强化刻板印象,或压迫和边缘化人们的。他们认为,认识到语言在维持社会等级制度(如种族主义)中所起的作用,对于NLP系统偏见分析的未来至关重要。
研究人员还认为,NLP偏见研究应该以超越机器学习的研究为基础,以便记录偏见、社会等级和语言之间的联系。“如果没有这一基础,研究人员和实践者可能只测量或减轻那些便于测量或缓解的东西,而不是最正常的关注的东西,”论文写道。
VB Transform 2020 Online-7月15-17日。加入领先的人工智能高管:注册免费直播。
每个建议都伴随着一系列问题,旨在引发未来的研究,并牢记这些建议。作者说,NLP偏见研究人员应该问的关键问题是“社会等级制度、语言意识形态和NLP系统是如何共同产生的?”作者说,这个问题与鲁哈·本杰明(Ruha Benjamin)最近坚持的观点是一致的,即人工智能研究人员应该考虑他们工作的历史和社会背景,否则就有可能变得像IBM研究人员在第二次世界大战期间支持大屠杀一样。从历史的角度来看,作者记录了美国历史上白人给非白人说话者贴上有缺陷语言的标签,以证明暴力和殖民主义是正当的,并表示语言至今仍被用来证明持久的种族等级制度是合理的。
白皮书写道:“我们建议研究人员和实践者以类似的方式询问,现有的社会等级和语言意识形态是如何推动NLP系统的开发和部署的,这些系统因此是如何复制这些等级和意识形态的。”
论文还建议NLP研究人员和实践者接受参与式设计,并参与受算法偏差影响的社区。为了说明如何将这种方法应用于非裔美国人的偏见研究,本文还包括了一个关于非裔美国人英语(AAE)的案例研究,包括对黑人如何在科技语言中说话的负面看法,以及语言如何被用来强化反黑人种族主义。
分析的重点是NLP文本,不包括语音算法偏差评估。今年早些时候发布的一项评估发现,苹果、谷歌和微软等公司的自动语音检测系统对白人说话者表现更好,对非裔美国人表现更差。
这篇论文中概述的趋势的显著例外包括NLP偏见调查或框架,其中往往包括对偏见的明确定义,以及关于刻板印象的论文,这些论文往往涉及NLP领域以外的相关文献。论文大量引用了乔纳森·罗萨(Jonathan Rosa)和纳尔逊·弗洛雷斯(Nelson Flores)的研究,他们从种族语言学的角度来看待语言,以对抗白人至上主义。
这篇论文是由马萨诸塞大学阿默斯特分校的苏琳·布洛吉特和微软研究院的索伦·巴罗卡斯、哈尔·道梅三世和汉娜·沃拉赫共同撰写的。在最近的其他人工智能伦理工作中,在3月份,沃拉赫和微软的以太委员会与机器学习从业者合作,创建了一系列产品,并与来自十几家公司的合作者一起创建了一份人工智能伦理核对表。