麻省理工学院技术评论

2020-12-05 14:50:34

12月2日星期三晚上,Google道德AI团队的联合负责人Timnit Gebru通过Twitter宣布,该公司已将她驱逐出境。

Gebru是AI伦理学研究领域广受尊敬的领导者,以与他人合作撰写的开创性论文而著称,该论文表明面部识别在识别有色人种和女性方面不那么准确,这意味着其使用最终可能会歧视他们。她还共同创立了Black in AI亲和力小组,并倡导技术行业的多样性。她在Google协助下建立的团队是AI领域中最多元化的团队之一,并且拥有许多领先的专家。该领域的同行们羡慕它做出的关键工作常常挑战主流AI实践。

一系列推文,泄露的电子邮件和媒体文章显示,Gebru的退出是与她共同撰写的另一篇论文发生冲突的最终结果。 Google AI负责人Jeff Dean在一封内部电子邮件(此后已在线发布)中告诉同事,该论文“没有达到我们的出版标准”,Gebru表示除非谷歌遇到许多人,否则她将辞职。不愿满足的条件。格布鲁在推特上说,她从假期回来后已经要求谈判“最后约会”。在她回来之前,她已从公司电子邮件帐户中被切断。

在线上,人工智能伦理领域的许多其他领导者都在争辩说,由于她发现了研究的核心内容(甚至是底线)方面的不便事实,该公司将她推出了。超过1,400名Google员工和1,900名其他支持者也签署了抗议信。

导致格布鲁(Gebru)离开的确切事件顺序的许多细节尚不清楚;她和Google都拒绝评论他们在社交媒体上的帖子。但是《麻省理工科技评论》(MIT Technology Review)是由其中一位合著者华盛顿大学计算语言学教授Emily M.Bender获得的研究论文的副本。尽管Bender要求我们不要发表论文,因为作者不希望这么早的草案在线发布,但它使人们对Gebru和她的同事提出的有关AI的问题有一定的了解,这些问题可能引起Google的关注。

标题为“关于随机鹦鹉的危险:语言模型会太大吗?”本文阐述了大型语言模型的风险,这些语言是经过大量文本数据训练的AI。在过去三年中,它们越来越受欢迎,也越来越大。现在,它们在适当的条件下非常擅长于生成看起来令人信服的有意义的新文本,有时甚至可以从语言中估计含义。但是,论文的引言说:“我们问是否已经对与开发这些风险相关的潜在风险以及减轻这些风险的策略进行了足够的思考。”

该文件以其他研究人员的工作为基础,介绍了自然语言处理的历史,概述了大型语言模型的四个主要风险,并提出了进一步研究的建议。由于与Google的冲突似乎要解决风险,因此我们着重在这里进行总结。

训练大型AI模型会消耗大量的计算机处理能力,因此会消耗大量电力。 Gebru和她的合著者引用了Emma Strubell及其合作者在2019年发表的关于大型语言模型的碳排放和财务成本的论文。研究发现,自2017年以来,随着向模型提供越来越多的数据,其能耗和碳足迹一直在爆炸式增长。

斯特鲁贝尔(Strubell)的研究发现,使用一种特殊类型的“神经结构搜索”(NAS)方法的语言模型将产生相当于626,155磅(284公吨)的二氧化碳,大约相当于五辆普通美国汽车的使用寿命。谷歌语言模型的一个版本,支撑公司搜索引擎的BERT,产生了1,438磅的二氧化碳当量,据Strubell估计,相当于在纽约市和旧金山之间的往返航班。

Gebru的草稿指出,建立和维持如此庞大的AI模型所需的庞大资源意味着它们倾向于使富裕的组织受益,而气候变化对边缘化社区的打击最大。他们写道:“现在研究人员已经优先考虑提高能源效率和成本,以减少对环境的负面影响和对资源的不平等获取。”

大型语言模型也接受了有关数量成倍增加的文本训练。这意味着研究人员已寻求从互联网上收集所有可能的数据,因此存在种族主义,性别歧视和其他侮辱性语言最终出现在培训数据中的风险。

一个被教为将种族主义语言视为正常的AI模型显然是不好的。不过,研究人员指出了另外两个细微的问题。一个是语言的改变在社会变革中起着重要的作用。例如,MeToo和Black Lives Matter运动试图建立一种新的反性别主义和反种族主义词汇。经过互联网广泛训练的AI模型不会适应这种词汇的细微差别,也不会按照这些新的文化规范来产生或解释语言。

它还将无法捕捉到互联网访问较少的国家和人民的语言和规范,从而使在线语言足迹更小。结果是,人工智能生成的语言将被同化,以反映最富裕国家和社区的做法。

此外,由于训练数据集非常庞大,因此很难对其进行审核以检查这些内在偏差。研究人员总结说:“因此,依赖于太大而无法记录的数据集的方法具有内在的风险。” “尽管文件可以潜在的责任,但没有文件的培训数据却无助于永久损害。”

研究人员将第三个挑战概括为“研究方向错误”的风险。尽管大多数AI研究人员都承认大型语言模型实际上并不能理解语言,但仅擅于操纵语言,但是Big Tech可以从能够更准确地操纵语言的模型中获利,因此它会继续投资。 “这项研究工作带来了机会成本,” Gebru和她的同事写道。在可能会达成共识的AI模型上投入较少的精力,或者使用更小,更精心策划的数据集(从而也使用更少的能量)来获得良好的结果。

研究人员说,大型语言模型的最终问题是,由于它们非常擅长模仿真实的人类语言,因此很容易使用它们来欺骗人们。有一些引人注目的案例,例如大学生在博客上发布了AI生成的自助和生产力建议,此事大肆宣传。

危险是显而易见的:例如,AI模型可用于产生有关选举或covid-19大流行的错误信息。当用于机器翻译时,它们也会无意中出错。研究人员举了一个例子:2017年,Facebook将一个巴勒斯坦人的帖子误译为阿拉伯语,称阿拉伯语为“早上好”,从而将其逮捕,该帖子在阿拉伯语中表示“早上好”。

Gebru和Bender的论文有六位合著者,其中四位是Google研究人员。本德尔要求避免透露自己的名字,以免引起反响。 (相比之下,本德是终身教授:“我认为这凸显了学术自由的价值,”她说。)

班德说,这篇论文的目标是盘点当前自然语言处理研究的前景。她说:“我们的工作规模使得构建事物的人实际上无法掌握数据。” “而且,由于存在如此明显的利弊,因此退后一步并自问,可能存在哪些弊端? ……我们如何在减少风险的同时获得收益?”

Google AI负责人Dean在内部电子邮件中说,该论文“未达到我们的标准”的原因之一是,该论文“忽略了太多相关研究”。具体来说,他说,它没有提及有关如何使大型语言模型更加节能和减轻偏差问题的最新工作。

但是,六个合作者获得了广泛的奖学金。该论文的引文清单有128篇参考文献,特别长。班德说:“这是任何个人甚至一对作家都无法完成的工作。” “确实需要这种合作。”

我们看到的这篇文章的版本也对减少大型语言模型的大小和计算成本以及测量模型的嵌入式偏差进行了一些研究。但是,它认为这些努力还不够。班德说:“我很乐意看到我们应该包括哪些其他参考。”

蒙特利尔办公室的Google AI研究人员Nicolas Le Roux随后在Twitter上指出,Dean电子邮件中的推理是不寻常的。他说:“总是检查我提交的材料是否泄露敏感材料,而从未检查其文献综述的质量。”

现在可能是时候提醒所有人,区分的最简单方法是制定严格的规则,然后决定何时以及针对谁执行这些规则。我提交的材料始终会检查敏感材料的披露情况,而不是文献综述的质量。

-尼古拉斯·勒·鲁(Nicolas Le Roux)(@le_roux_nicolas)2020年12月3日

迪安(Dean)的电子邮件还说,格布鲁(Gebru)和她的同事们只给了Google AI一天时间,以便对该论文进行内部审查,然后再将其提交给会议发表。他写道:“我们的目标是在发表论文之前对我们的研究进行严格和周到的研究,以与同行评审期刊相抗衡。”

我了解对Timnit从Google辞职的担忧。她为推动该领域的研究做了很多工作。我想分享我发送给Google Research的电子邮件以及对我们研究过程的一些想法。 https://t.co/djUGdYwNMb

-杰夫·迪恩(@ðŸ¡)(@JeffDean)2020年12月4日

班德指出,即使如此,会议仍将对论文进行实质性的审查:“奖学金始终是一场对话,始终在进行中,”她说。

其他人,包括前Google公关经理威廉·菲茨杰拉德(William Fitzgerald),进一步对迪恩的主张提出了疑问:

这真是个谎言。审查这些论文是我在Google PR团队工作的一部分。通常情况下,我们有太多我们没有及时审查它们,否则研究人员只会发布&直到之后我们才知道。我们绝不惩罚没有适当处理的人。 https://t.co/hNE7SOWSLS pic.twitter.com/Ic30sVgwtn

-威廉·菲茨杰拉德(@william_fitz)2020年12月4日

Google开创了许多基础研究的先河,此研究导致最近大型语言模型的爆炸式增长。 Google AI于2017年率先发明了Transformer语言模型,该模型是该公司后来的BERT模型以及OpenAI的GPT-2和GPT-3的基础。如上所述,BERT现在也为该公司的摇钱树提供了动力。

Bender担心Google的行为可能会对未来的AI伦理学研究造成“寒蝉效应”。许多AI道德高级专家都在大型科技公司工作,因为这就是金钱所在。她说:“这在许多方面都是有益的。” “但我们最终会拥有一个生态系统,其动机可能不是世界科学进步的最佳动力。”