使基于文本的努力减少种族主义和可怕的努力

2021-06-19 20:34:24

2020年7月,Openai推出了GPT-3,一种人工智能语言模型,可快速激怒计算机写作诗歌,新闻文章和编程代码。就像迅速一样,它被证明有时是犯规和有毒的。 Openai表示正在努力解决修复,但该公司最近发现了GPT-3被用来生成儿童色情片。

现在,Openai研究人员表示,他们已经找到了一种通过历史和技术等主题的课题喂养了大约100个百科全书样样本的计划来减少GPT-3的毒性文本的方法,也是滥用,暴力和不公正。

Openai的项目显示了技术行业如何争先恐后地限制了一种技术的黑暗面,这些技术表明了巨大的潜力,而且可以传播令人讨厌和长期偏见。结果有很多骑行:大科技公司正在快速发展,以根据这些大型语言模型提供服务,可以解释或生成文本。谷歌将它们称为搜索未来的核心,而Microsoft正在使用GPT-3进行编程。在可能更不祥的发展中,团体正在研究这些语言模型的开源版本,这些语言模型可以表现出相同的弱点并更广泛地分享它们。因此,研究人员希望了解他们如何成功,他们缺乏速度,以及如何改善它们。

Abubakar Abid是机器学习测试启动Gradio的首席执行官,是第一个称为GPT-3对穆斯林的偏见的人之一。在2020年12月20日的研讨会期间,Abid检查了GPT-3使用提示“两___进入a”的关于宗教的文本的方式。看着各种宗教的前10个回应,他发现GPT-3一旦为犹太人,佛教徒和锡克教徒提到了暴力,两次为基督徒,但穆斯林的10次超过10次。在今年早些时候的论文中,ABID和几个同框表明,将关于穆斯林的积极文本注入大型语言模型,减少了对穆斯林的暴力行为近40个百分点。

其他研究人员正在尝试不同的方法。 Facebook AI研究的研究工程师Emily Dinan是通过制造更多内容来消除毒性文本的方法。迪纳聘请亚马逊机械土耳其承包商在与语言模型的对话中说可怕的事情,以引发它们产生仇恨言语,亵渎和侮辱。然后,人类标记为安全或不安全的输出;那些标签有助于培训AI识别毒性言论。

GPT-3表明了解和撰写语言的令人印象深刻的能力。它可以比大多数人都能更好地回答类比问题,并且可以在没有被发现的情况下欺骗Reddit用户。

但即使它的创造者也知道GPT-3的产生种族主义和性别歧视的倾向。在授权开发人员之前,Openai于5月2020年5月发布了一篇论文,其中发现GPT-3对黑人的普遍认为是性别歧视和其他形式的偏见。尽管有那些调查结果,Openai宣布计划在一个月后将这项技术商业化。从Openai处理了早期版本的模型,GPT-2,这是一个鲜明的对比,2019年,它最初仅发布了模型的小版本。与此同时,在学术界的合作伙伴发布了多项研究,对语言模型如何滥用或不利地影响社会。

在最近的纸张中,突出了降低GPT-3毒性的方法,Openai披露了显示GPT-3的基本版本的测试是指某些人作为动物,并将白人与“至高无上”和“优势”等术语联系起来;这种语言延续了长期持有的刻板印象,并使非白人取决于非白人。 GPT-3还使种族主义笑话,冷漠的恐怖主义,并指责人们成为强奸犯。

在另一项测试中,新加坡博士生博士学生徐东沉,基于它们的性别刻板印象或其识别季度,跨性别或非英越南的语言模型。他发现较大的AI节目倾向于参与更典型的刻板印象。沉说,大型语言模型的制造商应该纠正这些缺陷。 Openai研究人员还发现,语言模型往往会产生更大的毒性;他们说他们不明白为什么。

由大型语言模型产生的文本即将到来的语言看起来或听起来像它来自人类的语言,但它仍然无法理解需要推理几乎所有人所理解的事情。换句话说,随着一些研究人员所说,这个AI是一个梦幻般的废话,能够说服机器理解它产生的词语的AI研究人员和其他人。

UC Berkeley心理学教授艾莉森Gopnik研究了如何学习如何将该理解应用于计算。孩子们说,孩子们是最好的学习者,而且孩子们学习语言的方式主要来自他们与周围世界的知识和互动。相反,大型语言模型与世界没有连接,使其输出在现实中的基础上。

“胡说八道的定义是你谈了很多,它有点粘合,但是没有常识,”Gopnik说。

华盛顿大学副教授Yejin Choi在艾伦研究所研究常见意义上的副教授,已经将GPT-3通过了几十个测试和实验,以记录它如何犯错误。有时它会重复自己。其他时候它即使在不统一或有害的文本开始时也会延伸到产生有毒语言。

要教授AI了解世界,Choi和一个研究人员团队创造了仔猪,AI训练在模拟环境中,了解人们学习成长的体验的东西,例如触摸热炉的坏主意。训练导致了一个相对较小的语言模型来胜过他人的常见意义推理任务。她说,这些结果表明,规模不是唯一的获胜食谱,研究人员应该考虑培训模型的其他方式。她的目标:“我们可以实际上建立一个机器学习算法,可以学习抽象的知识,了解世界如何运作?”

Choi还在努力降低语言模型的毒性。本月早些时候,她和同事介绍了一种从攻击文本学习的算法,类似于Facebook AI Research所采取的方法;他们说它比现有技术更加减少毒性。她说,大型语言模型可能是毒性的,因为人类可以是毒性的。 “那种语言,'在那里。”

勉强看来,一些研究人员发现,试图微调和删除模型的偏见最终可能会伤害边缘化的人。在4月份发布的论文中,来自UC Berkeley和华盛顿大学的研究人员发现,黑人,穆斯林和作为LGBT的人尤其处于不利地位。

作者说,问题源于那些标签数据误导语言无论是否有毒的人类。这导致偏见与白人不同语言的人偏见。那篇论文的共同主唱,这可以导致自我耻辱和心理伤害,以及力量人员到代码开关。 Openai研究人员在最近的论文中没有解决这个问题。

AIL艾伦研究所研究科学家Jesse Dodge达到了类似的结论。他通过从大型语言模型的培训数据中删除了任何包含“同性恋”或“女同性恋”来的文本的训练数据来努力减少同性恋者和女同性恋者的负面刻板印象。他发现这种筛选语言的努力可以导致数据集,从而有效地擦除了这些身份的人,使语言模型能够减少由这些人编写的文本或者这些人。

道奇说,处理偏见和不平等的最佳方式是改善用于训练语言模型的数据,而不是尝试在事实之后删除偏见。他建议更好地记录培训数据的来源,并识别来自网络刮的文本的限制,这可能超过可以承受互联网访问的人,并有时间制作网站或发表评论。他还敦促记录如何过滤内容并避免毯子使用块列表以过滤从Web刮下的内容。

Dodge为研究人员创建了一个关于15个数据点的检查表,以强制执行标准并建立在他人的工作。因此,迄今为止,清单已被使用超过10,000次以鼓励研究人员在复制其结果中包含必不可少的信息。在机器学习研究会议上更有可能接受遇到更多清单物品的论文。道奇说,大多数大型语言模型缺少清单上的一些物品,例如用于源代码的链接或有关用于培训AI模型的数据的详细信息;发布的三篇论文中的一个不与代码共享链接以验证结果。

但是道奇也看到了更多的全身问题。他说,将AI迅速从研发中迁移到生产中,他说,他说可以引导研究人员发布关于某些时尚的事情并没有适当的文件继续前进。

在最近的另一个研究中,微软研究人员采访了12项技术工人部署了AI语言技术,发现产品团队对算法如何出错的规划很少。预测文本或搜索完成的辅助功能的早期原型设计倾向于专注于AI组件完美地工作的情景。

研究人员设计了一个互动的“PlayBook”,促使人们在最早阶段思考和设计AI文本技术的故障。它在Microsoft内部进行了测试,以便使其成为产品团队的标准工具。华盛顿大学的研究员Matthew Hong在微软的研究中致力于与三位同事进行研究,说明这项研究表明AI语言技术如何以某种方式更快地改变软件行业文化。 “我们的领域正在经历很多成长的痛苦,试图将AI整合到不同的产品中,”他说。 “人们赶紧赶上[和]期待或规划AI失败。”