世界上有超过7,000种语言,其中4,000人。然而,只有100左右可以通过谷歌翻译等自动化工具翻译。新的研究承诺让我们也与其他人沟通。
想象一下,你遇到了一个可以包含救生信息的信息。但是有问题:你不了解一个词。您'重新确定世界上哪一个'千言万语。你做了什么?
如果消息以法语或西班牙语为单位,将其键入自动翻译引擎将立即解决谜团,并以英语生成坚实的答案。但许多其他语言仍然无污染机器翻译,包括数百万人口的语言,如Wolof,Luganda,Twi和Ewe在非洲。那个' s是因为这些引擎的算法从人类翻译中学习 - 理想情况下,数百万字母的翻译文本。
由于加拿大议会,联合国和欧盟等多种语言的机构,有丰富的语言如英语,法语,西班牙语和德语。他们的人类翻译人员搅拌出翻译的成绩单和其他文件的流。欧洲议会单独生产超过十年的23种语言制作13.7亿字的数据。
然而,没有这种数据山存在可能被广泛发言但不得转化的语言。它们被称为低资源语言。这些语言的后备机训练材料包括宗教出版物,包括庞大的圣经。但这相当于一个狭窄的数据集,并且不足以训练准确,广泛的翻译机器人。
谷歌翻译目前提供了在Microsoft' S Bing Translator提供大约70种语言中的108种不同语言中沟通的能力。然而,世界各地还有7,000多种口语语言,至少有4,000人与书写系统。
这种语言障碍可能会对任何需要在匆忙中收集精确的全球信息的人构成问题 - 包括情报机构。
"我会说一个人更有兴趣的是在理解世界,必须能够访问不英语的数据," IARPA的Program Manager Carl Rubino表示,美国智能服务的研究组织。 "我们今天面临的许多挑战,如经济和政治不稳定,Covid-19大流行和气候变化,超越我们的星球 - 因此,是多种语言的。"
以新语言培训人类翻译或智力分析师可能需要数年。即便如此,它对手头的任务可能还不够。 "例如,在尼日利亚,有超过500种语言,"鲁诺诺说。 "即使是我们最具世界知名的专家,也可能在那些中的一小部分,如果有的话。"
为了打破该障碍,IARPA是资助的研究,以开发一个可以找到,翻译和总结任何低资源语言信息的系统,无论是文本还是语音。
通过英语查询中的用户类型的搜索引擎图片,并从外语翻译,从英语中接收总结文件列表。当他们点击一个时,完整翻译的文件会出现。虽然资金来自IARPA,但该研究通过竞争团队公开进行,而且它的大部分都已发表。
哥伦比亚大学计算机科学家Kathleen Mckeown,他领导了其中一个竞争团队,认为超越情报界的福利。 "最终目标是促进与不同文化的人之间的更多信息以及更多信息,"她说。
研究团队正在利用神经网络技术解决问题,一种人工智能形式,模仿人类思维的某些方面。神经网络模型近年来具有革命性的语言处理。他们可以学习他们的含义而不是刚刚记住单词和句子。他们可以从像&#34这样的话语中的语境锻炼。狗""贵宾犬和#34;和法国" chien"所有表达类似的概念,即使它们在表面上看起来非常不同。
然而,要执行此操作,模型通常需要通过数百万页的培训文本。挑战是让他们从较少量的数据中学习 - 就像人类一样。毕竟,人类不需要阅读岁月'值得学习语言的议会记录。
"每当你学习一种语言时,你永远都不会在你的一生中看到今天的数据量' S机翻译系统用于学习英语到法语翻译," MIT的计算机科学家Regina Barzilay说,谁是另一个竞争团队的成员。 "你看到一个小小的分数,这使您能够概括并理解法语。所以以同样的方式,你想看看下一代机器翻译系统,即使没有这种数据饥饿的行为也可以做出很大的工作。"
为了解决这个问题,每个团队都分为较小的专业群体,解决了系统的一个方面。主要组件是自动搜索,语音识别,翻译和文本汇总技术,全部适用于低资源语言。自2017年为期四年的项目开始,该团队曾在八种不同的语言中工作,包括斯瓦希里语,塔加朗,索马里和哈萨克。
以新闻文章,博客和视频的形式,一名突破是从网络中收获文本和演讲。由于用户在母语中的世界各地的所有内容,许多低资源语言都有越来越多的在线数据。
"如果您搜索互联网,并且您希望在索马里的数据,您可以获得数亿个单词,没问题,"南加州大学计算机科学家Scott Miller表示,他共同领导了其中一个研究团队。 "您可以在网上以相当大的数量在几乎任何语言中获取文本。"
该在线数据往往是单一的,这意味着索马里文章或视频只是在那种语言中,而不是' t与并行英语翻译。但米勒表示,神经网络模型可以在许多不同语言中预先接受这些单格式数据。
认为,在他们的预训练期间,神经模型一般地学习人类语言的某些结构和特征,然后他们可以应用于翻译任务。这些是有点谜。 "没有人真正知道这些模型真正学习的结构,"米勒说。 "他们有数百万参数。"
但是,一旦预先训练了许多语言,神经模型就可以使用非常小的双语训练材料来学习在各个语言之间翻译,称为并行数据。一十万字并行数据足够 - 关于几个小说的长度。
多语言搜索引擎将能够通过人类演讲以及文本梳理,这提出了另一组复杂问题。例如,语音识别和转录技术通常与之前遇到的声音,名称和地点挣扎。
"我的例子将是一个国家,&#39或者也许比西方相对模糊的国家,也许政治家被暗杀,"爱丁堡大学的语音技术专家彼得·贝尔说,该专家是试图解决这个问题的团队的一部分。 "他的名字现在非常重要,但以前,它是模糊的,它没有发现' t功能。那么你怎么去找到你的音频中的政治家'"
贝尔和他的合作者使用的一种解决方案是返回最初通过衡量不确定性转录的单词,表明机器不熟悉它们。在重新检查时,其中一人可能会成为以前晦涩的晦涩难以置信的政治家的名字。
一旦找到并翻译相关信息,搜索引擎会为用户汇总。在这个概述过程中,它在神经模型显示出一些最奇怪的行为 - 他们是幻觉的。
想象一下,您正在寻找关于在星期一冲击建筑物的抗议者的新闻报道。但上来的摘要说他们星期四袭击了它。这是因为当报告总结了数百万页的培训文本时,神经模型提高了其背景知识。在这些文本中,周四有更多的人袭击建筑物的例子,所以它结束了这应该适用于最新的例子。
类似地,神经模型可以将日期或数字插入摘要。计算机科学家称之为幻觉。
"这些神经网络模型,它们如此强大,他们已经记住了很多语言,他们添加了不在源码中的单词,"爱丁堡大学的计算机科学家米尔利亚拉帕塔说,这是其中一支球队的汇总要素。
LAPATA和她的同事通过从每个文档中提取关键字来避免问题,而不是告诉机器将其放在句子中。关键字不如句子优雅,但它们限制了模型'写机器人诗歌的倾向。
虽然搜索引擎专为生存语言而设计,但该项目包括一个跨越数千年没有说出的语言的子组。这种古代语言是极低的资源,因为许多人只是作为文本碎片而生存。它们为可以应用于现代低资源语言的技术提供有用的测试理由。
Barzilay在麻省理工学院,嘉明罗的博士学生和他们的合作者开发了一种算法,如果某些古代语言有现代幸存者,可以解决。他们通过喂食有关这些语言的基本信息,以及关于语言变化的一般方面的基本信息,给了它。借助这些知识,该模型能够使用少量数据来自行制作一些发现。它正确地制定了乌加雷特,来自近东的古代语言与希伯来语有关。它还得出结论,伊比利亚古老的欧洲语言更接近巴斯克,而不是其他欧洲语言 - 尽管与其他欧洲语言没有足够的接近相对。
Barzilay希望这种方法可以激发更广泛的变化,使神经模型减少数据饥饿。 "我们对巨大并行数据的依赖 - 它' s系统的弱点,"她说。 "所以如果你真的生产出良好的技术,就是为了解读,是小语言,它'"
团队已设定生成多语言搜索引擎的基本版本,并使用每种新语言完善它。 IARPA计划经理Rubino认为这些技术可能会改变智能的聚集。 "我们确实有机会彻底改变我们的分析师从外语数据学习的方式,允许单语英语口语分析师访问他们以前无法与之合作的多语言数据;他说。
虽然智力分析师正在尝试从外面奖励开放的低资源语言,但这些语言的母语人士也在自己的手中。他们也希望获得其他语言的紧急信息 - 而不是间谍活动,而是为了改善他们的日常生活。
"当这种Covid-19发生这种流行时,突然需要将基本健康提示翻译成多种语言。我们不能用机器翻译模型做到这一点,因为质量," David Ifeoluwa Adelani,德国Saarbland大学计算机科学博士生博士生。 "我认为这真的教导了我们的技术,我们有助于为低资源语言工作,特别是在需要时。"
阿德拉尼最初是来自尼日利亚和一个原生Yorùbá扬声器,并一直在建立一个Yorùbá-jearnal数据库,作为一个叫做多语种非洲语言障碍的非营利性项目的一部分。他和他的团队通过收集翻译的电影脚本,新闻,文学和公开谈判创建了一个新的数据集。然后,他们使用了这个数据集来微调已经在宗教文本训练的模型,例如耶和华的目击者出版物,提高其表现。其他非洲语言对eWE,Fongbe,TWI和卢瓦顿等其他非洲语言进行了类似的努力,由Masakhane等来自非洲的研究人员等基层社区帮助。
有一天,我们所有人都可能在日常生活中使用多语言搜索引擎,在点击按钮时解锁世界和#39;知识。在那之前,真正了解低资源语言的最佳方式可能会学习它 - 并加入多语言,在线人类喋喋不休,培训世界' S翻译机器人。
通过在Facebook上喜欢我们加入一百万个未来的粉丝,或在推特或Instagram上关注我们。
如果您喜欢这个故事,请注册每周BBC.com功能时事通讯,名为"基本名单"每周五,英国广播公司的未来,文化,工作期和旅行,文化,工作期和旅行,文化,工作期和旅行的精心挑选。