自然语言处理(Natural Language Processing,NLP)的研究主要集中在开发适合英语的方法上,尽管在其他语言上工作有很多积极的好处。这些好处从超大的社会影响到对大量语言特征的建模,到避免过度拟合,以及机器学习(ML)面临的有趣挑战,不一而足。
全世界大约有7000种语言在使用。上面的地图(参见Langscape的互动版本)概述了世界各地使用的语言,每个绿色圆圈代表一种母语。世界上大多数语言都在亚洲、非洲、太平洋地区和美洲使用。
虽然在过去几年中,我们在自然语言处理的许多任务上都取得了令人振奋的进展(请参阅代码和NLP进展的概述),但大多数这样的结果都是用英语和一小部分其他高资源语言实现的。
在我们关于无监督跨语言表示法学习的ACL 2019年教程的上一篇概述中,我定义了基于在线无标签数据和有标签数据可用性的资源层次结构。在最近的一篇ACL2020论文中,Joshi等人。以类似的方式基于数据可用性定义分类,如下所示。
在NLP文献中,处于拥有大量标记和未标记数据的最佳位置的类别5和4的语言得到了很好的研究。另一方面,其他群体的语言在很大程度上被忽视了。
在这篇文章中,我将讨论为什么你应该学习英语以外的语言。具体地说,我将从社会、语言、机器学习、文化和规范以及认知的角度来强调原因。
如果技术仅对操标准口音的英语使用者可用,则无法访问该技术。
你所说的语言决定了你获得信息、接受教育,甚至人际联系的机会。尽管我们认为互联网对每个人都是开放的,但在主要语言(主要来自西方世界)和其他语言之间存在着数字语言鸿沟。网上只有几百种语言,说少数民族语言的人可获得的信息严重有限。
随着越来越多的语言在聊天应用和社交媒体上以非正式上下文编写,这种鸿沟延伸到所有技术级别:在最基本的语言技术级别,资源较少的语言缺乏键盘支持和拼写检查(Soria等人,2018年)-对于没有广泛书写传统的语言,键盘支持更是罕见(Paterson,2015)。在更高的层面上,算法是有偏见的,会歧视非英语语言的说话者,或者只是带有不同口音的人。
后者是一个问题,因为许多现有的工作都将高资源语言(如英语)视为同质语言。因此,我们的模型在过多的相关语言子社区、方言和口音上表现不佳(Blodgett等人,2016年)。在现实中,语言变体之间的边界比我们想象的要模糊得多,相似语言和方言的语言识别仍然是一个具有挑战性的问题(Jauhiainen等人,2018年)。例如,尽管意大利语是意大利的官方语言,但全国大约有34种地区语言和方言。
持续缺乏技术包容不仅会加剧语言鸿沟,还可能迫使说不受支持的语言和方言的人转向拥有更好技术支持的高资源语言,进一步危及这些语言的多样性。为了确保不会说英语的人掉队,同时为了抵消现有的不平衡,降低语言和识字障碍,我们需要将我们的模式应用于非英语语言。
尽管我们声称有兴趣开发通用的语言理解方法,但我们的方法通常只适用于一种语言,即英语。
英语和其他一些资源丰富的语言在很多方面并不能代表世界上的其他语言。许多资源丰富的语言属于印欧语系,主要在西方世界使用,并且在形态上很差,即信息大多是通过句法表达的,例如通过固定的词序和使用多个单独的词,而不是通过词级的变化来表达。
为了获得更全面的视角,我们可以看看不同语言的类型学特征。“世界语言结构图集”收录了192个类型特征,即语言的结构和语义属性。例如,一个类型学特征描述了一种语言中主语、宾语和动词的典型顺序。每个特征平均有5.93个类别。所有特征类别中的48%仅存在于上述第0-2组的低资源语言中,而不存在于第3-5组的语言中(Joshi等人,2020年)。忽略如此大的类型学特征子集意味着我们的NLP模型可能会错过对推广有用的有价值的信息。
研究英语以外的语言也可能有助于我们获得关于世界语言之间关系的新知识(Artexe等人,2020年)。相反,它可以帮助我们揭示我们的模型能够捕捉到哪些语言特征。具体地说,你可以利用你对一种特定语言的知识来探究与英语不同的方面,如变音符号的使用、广泛的复合词、词尾变化、派生、重叠、粘合、融合等。
我们将假设编码到基于我们打算应用它们的数据的模型体系结构中。尽管我们希望我们的模型是通用的,但它们的许多归纳偏见是特定于英语和类似英语的语言的。
模型中没有任何显式编码的信息并不意味着它真正与语言无关。一个经典的例子是n元语法语言模型,它在具有复杂的词法和相对自由的词序的语言中的表现要差得多(Bender,2011)。
同样,神经模型经常忽视词法丰富的语言的复杂性(Tsarfaty等人,2020年):子词标记化在有重叠的语言上表现不佳(Vania和Lopez,2017年),字节对编码与词法不能很好地对齐(Bostrom和Durrett,2020),词汇量较大的语言对语言模型来说更困难(Mielke等人,2019年)。语法、词序和句法上的差异也会给神经模型带来问题(Ravfogel等人,2018年;Ahmad等人,2019年;Hu等人,2020年)。此外,我们通常假设预先训练的嵌入很容易编码所有相关信息,但并不是所有语言都是这样(Tsarfaty等人,2020年)。
上述问题对建模结构-无论是在单词层面还是在句子层面-提出了独特的挑战,处理稀疏性、少机会学习、用预先训练的表示对相关信息进行编码,以及在相关语言之间传输,以及许多其他有趣的方向。目前的方法不能解决这些挑战,因此需要一套新的语言感知方法。
最近的模型反复在越来越困难的基准上与人类水平的表现相匹配-也就是说,在英语中,使用具有数千个标记的数据集和具有数百万个示例的未标记的数据集。在这个过程中,作为一个社区,我们已经过度适应了英语数据的特点和条件。特别是,通过将重点放在高资源语言上,我们对只有在有大量标记和未标记数据可用时才有效的方法进行了优先排序。
相比之下,大多数当前的方法在应用于世界上大多数语言常见的数据稀缺条件时就失效了。即使是最近在训练前语言模型方面的进展,大大降低了下游任务的样本复杂性(Peters等人,2018年;Howard和Ruder,2018年;Devlin等人,2019年;Clark等人,2020年),也需要大量干净、未标记的数据,而这在世界上大多数语言中都是无法获得的(Artexe等人,2020年)。因此,在数据很少的情况下做得很好是测试当前模型局限性的理想环境--而对低资源语言的评估无疑构成了它在现实世界中最有影响力的应用程序。
我们的模型所训练的数据不仅揭示了特定语言的特征,而且揭示了文化规范和常识知识。
然而,这些常识在不同的文化中可能是不同的。例如,免费和非免费的概念在跨文化上有所不同,免费商品指的是任何人无需征得许可就可以使用的商品,比如餐馆里的盐。禁忌话题在不同的文化中也是不同的。此外,不同的文化对相对权力和社会距离的评估也不同,还有许多其他的事情(托马斯,1983)。此外,许多现实世界的情况,如COPA数据集中的情况(Roemmele等人,2011年),与许多人的直接经验不符,同样也没有反映对世界上许多人来说是显而易见的背景知识的关键情况(Ponti等人,2020年)。
因此,只接触到主要来自西方世界的英语数据的代理人可能能够与来自西方国家的说话者进行合理的对话,但与来自不同文化的人交谈可能会导致语用失误。
除了文化规范和常识知识之外,我们训练模型所依据的数据也反映了潜在社会的价值观。作为一名NLP研究者或实践者,我们必须问问自己,我们是否希望我们的NLP系统唯一地分享特定国家或语言社区的价值观。
虽然这一决定对于当前主要处理文本分类等简单任务的系统来说可能不那么重要,但随着系统变得更加智能,需要处理复杂的决策任务,它将变得更加重要。
人类儿童可以习得任何自然语言,他们的语言理解能力在各种语言中都是非常一致的。为了实现人类水平的语言理解,我们的模型应该能够显示来自不同语言家族和类型的语言之间相同水平的一致性。
我们的模型最终应该能够学习抽象,这些抽象不是特定于任何语言的结构,而是可以概括到具有不同属性的语言。
数据集-如果您创建新的数据集,请保留一半的批注预算用于以另一种语言创建相同大小的数据集。
评估:如果您对特定任务感兴趣,请考虑用不同的语言对同一任务评估您的模型。有关某些任务的概述,请参阅NLP Progress或我们的Xtreme基准测试。
假设应该是关于你的模型使用的信号和它所做的假设的明确的。考虑哪些是您正在学习的语言所特有的,哪些可能更通用。
语言多样性评估你正在研究的语言样本的语言多样性(Ponti等人,2020年)。
研究并致力于解决低资源语言挑战的方法。在下一篇文章中,我将概述多语言自然语言处理领域有趣的研究方向和机会。
@misc{ruder2020,作者={鲁德,塞巴斯蒂安},标题={{为什么要做英语以外的nlp}},年份={2020},如何发布={\url{http://ruder.io/nlp-beyond-english}},}。
感谢Aida Nematzadeh、Laura Rimell和Adhi Kuncoro对本文草稿的宝贵反馈。