Facebook宣布了一个开源的人工智能模型,可以在100多种语言之间直接翻译,而不需要先翻译成英语

2020-10-19 23:27:46

无论你是从美国、巴西、婆罗洲还是法国登录,Facebook几乎都可以使用自动机器翻译将其平台上发布的任何书面内容翻译成当地语言。事实上,Facebook每天仅为其News Feed就提供约200亿份翻译。然而,这些系统通常使用英语作为中间步骤--也就是说,从汉语翻译成法语实际上是从汉语到英语再到法语。之所以这样做,是因为英语翻译的数据集是海量的,而且广泛可用,但将英语放在中间会降低整体翻译的准确性,同时使整个过程比需要的更加复杂和繁琐。这就是为什么脸书人工智能开发了一种新的机器翻译模式,可以在两种语言(汉语到法语和法语到汉语)之间直接双向翻译,而不需要使用英语作为拐杖-在BLEU指标上,它比以英语为中心的模式高出10分。

Facebook AI的研究助理安吉拉·范(Angela Fan)告诉Engadget:“主要的挑战是,我们如何利用我们拥有的翻译系统,然后真正满足世界各地人们的需求。”“所以你要翻译成人们真正想要的所有语言和各个方向。例如,世界上有很多地区的人会说多种语言,其中没有一种是英语,但现有的翻译系统严重依赖于只使用英语的数据。“。她指出,在Facebook平台上每天以160种语言发布的数十亿篇帖子中,有三分之二是用英语以外的语言发布的。

名为M2M-100的Facebook声称它是第一个可以在100种语言中的任何一对之间直接来回翻译的多语言机器翻译模型(MMT)。总而言之,FBAI已经构建了一个庞大的数据集,包括100种语言的75亿个句子。根据Facebook周一发布的一篇博客文章,研究团队利用这一点,训练了一个具有超过150亿个参数的通用翻译模型,“该模型捕捉了相关语言的信息,并反映了语言和词法的更多样化的脚本”。

要做到这一点,Facebook必须使用各种新颖的技术从世界各地收集大量公开可用的数据。范解释说:“这其中很大一部分实际上是建立在我们在Facebook研究了多年的工作基础上的,这些工作就像我们今天为了建立这个系统而拼凑起来的所有不同的乐高积木一样。”

首先,该团队使用CommonCrawl,它维护一个开放的网络爬行数据存储库,从网络上收集文本示例。然后,他们开始使用FastText来识别文本的语言。FastText是Facebook几年前开发并开源的一个文本分类系统。“它主要是看一些测试,然后试图决定它是用什么语言写的,”范说。“所以我们把网络上的一堆文本分成所有这些不同的语言,然后我们的目标是找出需要翻译的句子。”

“传统上,人们使用人工翻译来创建翻译数据,”她继续说道。“这在规模上是很困难的,因为例如,很难找到会说英语和泰米尔语的人,但要找到同时会说法语和泰米尔语的人就更难了,因为非英语翻译仍然是一个需要改进的领域。”

为了大规模挖掘必要的数据,范的团队严重依赖激光系统。她说:“它阅读句子,提取文本,并创建文本的数学表示,这样具有相同含义的句子就会映射到相同的思想。”“所以,如果我用中文和法语写一句话,他们说的是同一件事,他们会有点重叠--就像维恩图一样--重叠区域就是我们认为是对齐句子的那种文本。”

当然,并不是所有的语言在互联网上都有大量的书面内容。在这些情况下,范的团队转向了单语数据,这只是用一种语言编写的数据。范冰冰以“汉译法”为例解释说:“如果我的目标是将汉语翻译成法语,但由于某些原因,我的质量不高,那么我会尝试通过获取法语的单语文本数据来改进这一点。”我所做的是训练系统的反面:我从法语到中文。例如,我所有的法语都取自维基百科,然后我把它翻译成中文。“

范继续说,这样做会产生一系列机器生成的“合成”数据。“所以我根据我的反向翻译的法语创建了这个合成中文,然后我将把它再次添加到前进模式中。”所以,我没有把中文改成法语,而是用中文加上我补充的合成中文,全部都变成了法语。由于这增加了一系列新的例子--无论是在输入端还是在输出端--模型将变得更加强大。“。

这是否会导致一种能够在世界上6200多种口语之间进行无损翻译的数字巴别鱼还有待观察。范指出,这个项目的最终成功取决于人工智能可以利用的资源量。对于像法语、汉语、德语、西班牙语和印地语这样的主要语言来说,这些资源是巨大的。“人们在网上用这些语言写了大量的文本,”范指出。“他们真的能够帮助很多数据,我们的模型可以利用这些数据变得更好.”

“对于资源非常少的语言,我个人确定了很多我们可能需要改进的领域,”她继续说。“对于非洲语言,我们很擅长斯瓦希里语和南非荷兰语,我们可以在祖鲁语等语言的基础上做很多改进,这些语言还有额外的研究挑战需要我们去面对。”

Facebook正在向研究社区开放数据集、模型、培训和评估设置,以帮助推动进一步的进步。该公司还计划继续独立开发该系统,并最终将该技术应用于日常运营。