第一个不依赖英语就能翻译100种语言的人工智能模型

2020-10-23 12:07:51

Facebook AI正在推出M2M-100,这是第一个多语言机器翻译(MMT)模型,可以在任何一对100种语言之间进行翻译,而不需要依赖英语数据。它在这里是开源的。

比方说,在将汉语翻译成法语时,大多数以英语为中心的多语言模型都会接受汉语到英语和英语到法语的培训,因为英语培训数据是最广泛可用的。我们的模型直接训练汉语到法语的数据,以更好地保存含义。在广泛使用的机器翻译评估指标BLEU上,它的表现比以英语为中心的系统高出10分。

M2M-100总共接受了2200个语言方向的培训-比以前最好的、以英语为中心的多语言模式多出10倍。部署M2M-100将提高数十亿人的翻译质量,特别是那些说低资源语言的人。

这一里程碑是Facebook AI多年来在机器翻译领域基础性工作的巅峰之作。今天,我们将分享有关我们如何为100种语言构建更多样化的MMT培训数据集和模型的详细信息。我们还发布了模型、培训和评估设置,以帮助其他研究人员复制和进一步推进多语言模型。

通过机器翻译(MT)打破语言障碍是最重要的方式之一,可以将人们聚集在一起,提供关于新冠肺炎的权威信息,并保护他们免受有害内容的伤害。今天,由于我们在低资源机器翻译方面的最新发展,以及最近在评估翻译质量方面的进步,我们在Facebook新闻馈送上平均每天支持200亿次翻译。

典型的机器翻译系统需要为每种语言和每项任务建立单独的人工智能模型,但这种方法在脸书上没有有效的扩展,人们在数十亿条帖子上发布了160多种语言的内容。

高级多语言系统可以一次处理多种语言,但由于依赖英语数据来弥合源语言和目标语言之间的差距,因此在准确性上做出了妥协。我们需要一种可以翻译任何语言的多语言机器翻译(MMT)模型,以便更好地服务于我们的社区,其中近三分之二的社区使用英语以外的语言。

作为Facebook多年来机器翻译研究的顶峰,我们很兴奋地宣布了一个重要的里程碑:第一个单一的大规模MMT模型,可以在任何方向直接翻译100×100种语言,而不需要仅依赖于以英语为中心的数据。我们的单一多语种模型表现和传统的双语模型一样好,与以英语为中心的多语种模型相比,我们实现了10个BLEU点的提升,通过采用新颖的挖掘策略创建翻译数据,构建了首个真正意义上的百种语言75对多句的数据集。我们使用几种缩放技术建立了一个具有150亿个参数的通用模型,该模型捕获了相关语言的信息,并反映了语言和形态学的更多样化的脚本。我们在这里把这项工作开源。

构建多对多MMT模型的最大障碍之一是为不涉及英语的任意翻译方向策划大量高质量的句子对(也称为并列句子)。要找到汉译英、英译法的翻译,要比找法语译成中文容易得多。更重要的是,培训所需的数据量随着我们支持的语言数量呈二次曲线增长。例如,如果每个方向需要10M个句子对,那么我们需要为10种语言挖掘1B个句子对,为100个语言挖掘100B个句子对。

我们接受了这个雄心勃勃的挑战,要构建迄今为止最多样化的多对多MMT数据集:100种语言的75亿句话对。这是通过组合已经酝酿多年的互补数据挖掘资源(包括ccAligned、ccMatrix和LASER)来实现的。作为这项工作的一部分,我们创建了一个新的LASER 2.0并改进了FastText语言识别,它提高了挖掘的质量,并包括开放源码的培训和评估脚本。我们所有的数据挖掘资源都利用公开可用的数据,并且都是开源的。

Facebook AI的新的多对多语言模型是机器翻译几年来在突破性模型、数据挖掘资源和优化技术方面开创性工作的成果。这个时间表突出了一些值得注意的成就。此外,我们通过挖掘ccNET创建了我们的海量训练数据集,ccNET建立在我们在处理单词表示方面的开创性工作FastText的基础上;我们的CCMatrix激光库用于在多语言嵌入空间中嵌入句子;以及CCAligned,这是我们基于URL匹配对齐文档的方法。作为这项工作的一部分,我们创建了LASeR 2.0,它改进了以前的结果。

尽管如此,即使有了激光2.0这样的先进底层技术,挖掘任意100种不同语言对(或4450种可能的语言对)的大规模训练数据也是高度计算密集型的。为了使这种类型的挖掘更易于管理,我们首先将重点放在翻译请求最多的语言上。因此,我们优先考虑数据质量最高、数据量最大的挖掘方向。我们避开了统计上很少需要翻译的方向,比如冰岛语-尼泊尔语或僧伽罗语-爪哇语。

接下来,我们介绍了一种新的桥梁挖掘策略,在该策略中,我们根据语言分类、地理和文化相似性将语言分为14个语言组。生活在同一语系国家的人们倾向于更频繁地交流,并将从高质量的翻译中受益。例如,一组将包括印度所说的语言,如孟加拉语、印地语、马拉提语、尼泊尔语、泰米尔语和乌尔都语。我们系统地挖掘了每组中所有可能的语言对。为了连接不同群体的语言,我们确定了少量的桥梁语言,通常是每个群体的一到三种主要语言。在上面的例子中,印地语、孟加拉语和泰米尔语将是印度雅利安语言的桥梁语言。然后,我们为这些桥梁语言的所有可能组合挖掘并行训练数据。使用这种技术,我们的训练数据集最终有75亿个并行语句的数据,对应于2200个方向。由于挖掘的数据可以用于训练给定语言对的两个方向(例如,en->;fr和fr->;en),因此我们的挖掘策略帮助我们有效地稀疏挖掘,以便在一个模型中最好地覆盖所有100×100(总共9,900)个方向。为了补充翻译质量低的低资源语言的平行数据,我们使用了流行的回译方法,帮助我们在2018年和2019年WMT国际机器翻译比赛中获得第一名。例如,如果我们的目标是训练一个汉语到法语的翻译模型,我们首先要训练一个法语到汉语的模型,然后翻译所有的单语法语数据,以创建合成的、回译的中文。我们发现,当将数亿个单语句子翻译成并行数据集时,这种方法在大规模情况下特别有效。在我们的研究环境中,我们使用反向翻译来补充我们已经挖掘的方向的训练,将合成的反向翻译数据添加到挖掘的并行数据中。我们使用反向翻译为以前无人监督的方向创建数据。

总体而言,我们的桥梁策略和反向翻译数据的组合与单独使用挖掘数据进行培训相比,BLEU在100个反向翻译方向上的性能平均提高了1.7%。有了更强大、更高效、更高质量的培训集,我们为构建和扩展我们的多对多模型奠定了坚实的基础。

我们还发现在零镜头设置上取得了令人印象深刻的结果,在这种情况下,没有针对两种语言的训练数据。例如,如果一名模特接受了法语-英语和德语-瑞典语的培训,我们就可以在法语和瑞典语之间零距离翻译。在我们的多对多模型必须将非英语方向之间的翻译归零的情况下,它比以英语为中心的多语言模型要好得多。

多语言翻译的一个挑战是单一模型必须捕获许多不同语言和不同脚本的信息。为了解决这个问题,我们看到了扩展模型容量和添加特定于语言的参数的明显好处。缩放模型%s

多年来,人工智能研究人员一直致力于建立一个单一的通用模型,可以理解不同任务中的所有语言。支持所有语言、方言和模态的单一模式将帮助我们更好地为更多人服务,使翻译保持最新,并平等地为数十亿人创造新的体验。这项工作使我们离这一目标更近了一步。

作为这一努力的一部分,我们已经看到在预先培训的语言模型、微调和自我监督技术方面取得了令人难以置信的快节奏进展。这项集体研究可以进一步促进我们的系统如何使用未标记的数据来理解低资源语言的文本。例如,

-R是我们强大的多语言模型,它可以从一种语言的数据中学习,然后以最先进的精确度执行百种语言的任务。MBART是为跨多种语言的BART任务预先训练完整模型的首批方法之一。最近,我们新的自我监督方法CRISS使用来自许多不同语言的未标记数据来挖掘跨语言的并行句子,并以迭代的方式训练新的、更好的多语言模型。

我们将继续改进我们的模型,纳入这样的尖端研究,探索负责任地部署MT系统的方法,并创建将其投入生产所需的更专业的计算体系结构。