机器翻译改变权力

2021-08-02 01:39:23

2019 年,美国国土安全部 (DHS) 宣布其计划收集寻求进入美国的外国人的社交媒体用户名,无论是旅行者还是移民,作为确定可入境性的新“极端审查”程序的一部分进入该国。对于那些主要以英语以外的语言进行在线活动的人,美国公民和移民服务局分发的官方手册指示官员使用谷歌翻译将他们的社交媒体帖子翻译成英语。尽管谷歌警告说其翻译服务不打算用来代替人工翻译,但这种做法仍在继续。人类语言之间的翻译实践长期以来一直受到权力不对称的影响。例如,几个世纪前应用于非洲大陆语言社区和实践的连续统一体的边界,以产生欧洲对离散语言对象的理解,以及应用于这些对象的名称,是由欧洲殖民者强加的,作为创建语言文献和翻译材料对殖民努力的支持不足。基督教传教士为以前不成文的语言创建了一些第一批语法资源,目的是翻译圣经并向世界各地的土著人民传教。历史上充斥着被迫学习殖民者语言的殖民臣民的例子,经常因说他们的母语而面临惩罚。在许多情况下,这种语言压迫导致了以土著语言为母语的人的减少,而对殖民地臣民通过强制性翻译使自己清晰易读的需求进一步加深了他们的征服。正如国土安全部审查协议所表明的那样,机器翻译技术的部署扩展了差异化的传统,并通过语言抑制或强制翻译对下属群体施加权力。通过这种方式,语言技术实现了一种新的语言监视。事实上,正是这种兴趣推动了 20 世纪中叶机器翻译技术的发展。机器翻译最初开发时所处的社会政治背景塑造了该项目的核心目标和假设,其在商业环境中的持续开发和使用不仅促进而且需要越来越大规模地整合资源和权力。鉴于技术如何使对语言所有权的理解复杂化的问题,语言社区转向抵抗的途径。美国的第一次机器翻译工作是由冷战推动的。早期的基于规则的系统主要是在军方和其他联邦机构的资助下开发的,并供其使用,通常依赖于工程师和语言学家之间的跨学科合作。经过一段主要由政府资助的学术工作主导的稳定研究之后,随着商用翻译软件的出现,机器翻译在 1990 年代的个人计算革命期间广泛为公众提供。到 2000 年代,Google 庞大的网络内容索引及其大量资本使统计(以及后来的神经)机器翻译技术的丰富和应用成为可能,从而导致在网络上部署免费提供的翻译服务,就像今天常用的那样. “[O]ne 自然想知道翻译问题是否可以被视为密码学中的问题。当我看一篇俄文文章时,我会说,‘这真的是用英文写的,但它被编码成一些奇怪的符号。我现在将继续解码。” – Warren Weaver,与 Norbert Wiener 通信,19472 年现代机器技术的起源可以追溯到二战期间的密码学和密码破译工作。美国科学家沃伦·韦弗 (Warren Weaver) 曾与信息理论先驱克劳德·香农 (Claude Shannon) 合作,他对信息理论在人类语言翻译中的应用很感兴趣。 1949 年,时任洛克菲勒研究所自然科学部主任的韦弗向少数语言学家和工程师分发了一份极具影响力的备忘录,题为翻译,其中他呼吁采取行动,将计算机应用于翻译人类语言。韦弗的备忘录促使学术界和工业界的各种机构在机器翻译方面的研究工作激增,包括华盛顿大学、乔治敦大学、IBM 和兰德公司。自动翻译的首批目标语言的决定仅仅是政治性的,当时是由美国和苏联之间的冷战竞争所决定的,特别是受到加强对科学文献监测的愿望的刺激俄语。 Anthony Oettinger 当时是哈佛大学的本科生,他回忆起被招募与计算机科学家 Howard Aiken 合作,他是 Weaver 备忘录的收件人之一,特别是因为他是俄语学生。

研究继续稳步进行,尽管 Georgetown-IBM 团队对俄语-英语翻译进行了有希望的系统演示,但在 1960 年代,在该死的 ALPAC 报告哀叹机器翻译质量低劣之后,资金减少了。然而,美国政府仍然是机器翻译技术的忠实消费者。在 Tom Pedtke 1997 年在第六届机器翻译峰会上的主题演讲中,他反思了 1990 年代政府需求促成的几个关键发展。例如,缉毒署在 1991 年投入资源改进西英翻译,而汉英和韩英翻译项目得到了美国国家安全局、联邦调查局、DARPA 和海军的支持。然而,在 1990 年代末,机器翻译的主要参与者(和消费者)发生了转变。 “现在硅谷发生的最重要的事情不是颠覆。相反,它是制度建设——以及权力的巩固——其规模和速度可能在人类历史上都是前所未有的。” – Gideon Lewis-Kraus,“伟大的人工智能觉醒”纽约时报杂志,2016 年 12 月 14 日 到 1990 年代中后期,计算处理能力的进步和个人计算革命推动了民用翻译工具的开发. SYSTRAN 由乔治城大学的机器翻译程序发展而来,与硬件巨头 Digital Equipment Corporation 合作,于 1997 年推出了 AltaVista,这是第一个免费的基于网络的翻译服务。 最初仅限于英语和少数浪漫语之间的翻译语言,广受好评;用户研究揭示了有关该服务如何与心爱的单语家庭成员进行交流并在翻译出错时提供独特的娱乐来源的感人轶事。次年,谷歌成立。作为斯坦福大学的研究生,谢尔盖·布林和拉里·佩奇已经开始致力于建立一个大规模的万维网内容索引,这是由 DARPA、NSF 和 NASA 联合资助的数字图书馆项目的一部分;这项工作将成为 Google 搜索引擎的基础。到 2004 年,Google 已成为一家估值极高的上市公司,赢得了全球网络冲浪者的赞誉。布林声称这是来自韩国粉丝的消息,被误译为“它想要的切片生鱼鞋”。谷歌葱的事! SYSTRAN 软件是谷歌授权的,这促使谷歌决定扩展谷歌的能力,包括语言翻译。毕竟,在 Google 寻求为所有网络编制索引的过程中,它需要能够包含互联网中非英语的部分。那一年,佩奇联系了南加州大学信息科学研究所的研究科学家 Franz Och,聘请他构建后来的谷歌翻译。 Och 起初持怀疑态度,对搜索引擎公司为什么要涉足翻译领域感到困惑,但被谷歌拥有前所未有的计算资源来推动统计机器翻译前沿的事实所吸引,新制造的可以通过 Google 处理的大量文本数据进行处理。在接下来的几年里,在 Och 的指导下,谷歌翻译大大超越了大学研究小组的其他机器翻译工作,为数十种语言开发了高效的系统。 Mark Przybocki 于 2010 年在美国国家标准与技术研究院监督机器翻译评估比赛,他将谷歌的竞争优势比作“与拥有足球场价值的处理器来收集数据的人较量”。如今,谷歌翻译拥有一百多种语言之间的文本翻译能力,微软和 Facebook 等其他科技巨头也开始涉足机器翻译研究。机器翻译背后的一个关键驱动力是寻求超越当地环境的详尽知识集合。美国机器翻译的最早努力旨在破译冷战时期的俄罗斯通信和科学论文,现在,谷歌已部署其最先进的机器翻译工具来构建其庞大的全球在线内容数据库。虽然谷歌翻译的临时用户表面上从访问该资源中受益,但这些免费工具可能被理解为“钩子”,将用户进一步诱入监视资本主义的榨取关系,并将经济活动转移到少数科技巨头作为提供者翻译'。虽然机器翻译技术的主要政府捐助者强调其通过相互理解来“维持和平”的效用,但谷歌将其翻译服务宣传为一种“打破 [s] 语言障碍并...... [使]世界更容易访问”的工具。这种语言作为“障碍”的意象经常在机器翻译的讨论中被引用,当这些障碍被打破时,提供普遍理解的乌托邦观点。具有讽刺意味的是,正如国土安全部的社交媒体审查过程所显示的那样,翻译软件专门用于维护文化障碍,只是增加了用于划分“内”和“外”群体的技术工具库。

使问题进一步复杂化的是,许多语言对的神经机器翻译输出的明显流畅性可能掩盖了这样一个事实,即系统仍然难以产生足够的翻译,可能会放大社会偏见,并且在传达意义的重要方面(如否定)时容易出现不准确。当考虑到经常使用和依赖机器翻译技术的高风险场景时,这尤其危险,例如在警察和平民之间的遭遇中。在应用概率工具试图使被模糊或扭曲的内容变得清晰时,我们必须保持警惕,翻译也不例外。同时,我们还必须首先关注使警民互动等场景变得如此高风险的条件——更准确的翻译系统不会有意义地破坏社会中明显的权力失衡,我们不应该假装它们将要。由于本文是在全球 COVID-19 大流行期间起草的,因此我们将忽略翻译在交流和传播有关预防、测试和寻找最佳实践的重要信息方面发挥的关键作用。一种治疗。越来越依赖自动翻译从国际科学知识生态系统中收集见解,这促使呼吁学者发展“机器翻译素养”,以了解自动翻译学术文本的缺点。技术人员、政策制定者和受影响的利益相关者在描述机器翻译的适当用途时必须考虑机器翻译的局限性。 “语言不是可以定位或重新定位的有形物体,这一事实使得文化所有权问题比具体的艺术作品或其他文化物体更加微妙,但也更加紧迫。” – Margaret Speas,“语言所有权和语言意识形态” “语言不会像财产被盗那样被盗。相反,人们被剥夺了塑造自己的文化和教育实践所需的主权。” – Kerim Friedman 最先进的神经机器翻译技术的训练和评估往往依赖于由人工翻译生成的大量并行数据集合,这种做法由范式的信息理论根源提供信息。对于翻译学者和文学评论家来说,韦弗将语言之间的翻译描述为仅仅是对编码信息的解密似乎有些粗糙,他们中的一些人对忠实翻译(尤其是文学和诗歌;韦弗本人也承认这一限制)的可能性持保留态度。事实上,文本之间“对等”的概念在翻译研究中引起了激烈的争论。这并不是说机器翻译在认识论上被遗弃了;当代机器翻译范式的平行文本基础与奎因的实用主义、行为主义翻译方法一致。无论人们是否认为这种框架令人信服,重要的是要认识到被视为黄金标准翻译的数据嵌入了编写它们的人的情境和主观立场,这会影响随后嵌入自动化系统中的关联。当代神经机器翻译系统的成功很大程度上是由于依赖于从网络上收集的大量语言数据。有成千上万种所谓的“低资源”语言(以及广泛使用的语言的少数民族方言),对于这些语言,行业巨头开发翻译工具既没有政治动机也没有经济激励,也没有必要的数字化资源数量庞大。神经机器翻译的成功应用。在这方面,语言社区可能有空间选择是否——如果是,向谁——提交他们的知识和文化以供观察。 [1] 2005年,马普切人的领导人向微软提起诉讼,最终未获成功,指控他们“盗版”,当时该软件公司试图以马普切人的语言Mapudungun发布Windows操作系统版本。 .微软没有与马普切人协商或征求他们同意使用他们的语言,而是与智利政府合作开发资源,但诉讼却出人意料。技术使一个人是否可以真正“拥有”一种语言的问题变得复杂起来;从网络上抓取的一千个句子的语料库是否足以为下游处理和翻译提取足够的形态句法特征?如果语言社区不想委托软件公司开发他们语言的工具,他们有什么追索权?

Kilito [2008] 在具有挑衅性的标题“你不应该说我的语言”中探讨了翻译伦理——具有讽刺意味的是,作者只能在翻译中遇到和享受这篇文章。 ↩︎ 西方关于语言濒危的话语不加批判地将低资源语言技术的发展视为一种社会福利,事实上,“低资源”名称的框架隐含地优先考虑了数据收集者的凝视,当说一种语言时以习语、笑话、寓言和口述历史的形式为自己提供大量资源。另一方面,被迫同化和殖民导致无数土著语言的母语人士数量急剧减少,毛利语和尤皮克语等语言的文献和振兴工作成为紧迫关注的焦点。最近的第一届美洲土著语言 NLP 研讨会等努力也鼓励朝这个方向努力。 Masakhane 项目采用参与式方法来解决数十种非洲语言缺乏技术资源的问题,提议由非洲人并为非洲人创造语言技术,从而让受影响最大的利益相关者参与指导研究方向和整理来自最项目的开始。 Masakhane 为未经正式计算方法培训的参与者创造了直接和有意义的参与方式,这代表着朝着使用翻译技术增强非洲语言母语和传统使用者的能力迈出的有希望的一步。机器翻译技术的创建、开发和部署历来与监视和治理实践纠缠在一起。翻译仍然是一种政治行为,数据驱动的机器翻译发展,主要集中在行业,使翻译转移权力的机制复杂化。意识到机器翻译作为一种工具和一种范式的缺点对于更好地阐明其使用的适当上下文是必要的。这一观点基于在 NeurIPS 2020 Resistance AI 研讨会上发表的论文“机器翻译如何改变力量?”。 Amandalynne Paullada 是华盛顿大学语言学系的博士研究生,导师是夏飞教授。她的研究涉及从科学文本中提取信息的自然语言处理,主要是在生物医学领域,以及机器学习研究的社会影响调查。这篇文章标题的灵感来自于 Pratyusha Kalluri 不要问人工智能是好还是公平,要问它如何转移权力。感谢 Resistance AI 2020 的观众和审阅者对本文的评论,感谢 Jessica Dai、Alex Hanna 和 Anna Lauren Hoffmann 对本文早期草稿的反馈。

@article{paullada2021shiftspower, author = {Paullada, Amandalynne}, title = { Machine Translation Shifts Power}, journal = {The Gradient}, year = {2021}, howpublished = {\url{ https://thegradient.pub/machine -translation-shifts-power/} }, } 如果您喜欢这篇文章并想了解更多信息,请订阅 Gradient 并在 Twitter 上关注我们。