一种古老的语言无法翻译

2022-02-14 15:28:34

罗家明在中国大陆长大,一直在思考被忽视的语言。在他年轻的时候,他想知道为什么他的父母说的不同语言经常被归为汉语“方言”

2015年,当他成为麻省理工学院计算机科学博士生时,他的兴趣与导师长期以来对古代脚本的痴迷发生了冲突。毕竟,还有什么比一门失传已久的语言更容易被忽视——或者,用罗的学术术语来说,“资源不足”——在零散的碎片上作为神秘的符号留给我们?“我认为这些语言很神秘,”罗在Zoom上告诉世界其他地方。“这绝对是吸引我的原因。”

2019年,罗在与麻省理工学院研究员团队合作时,将他的机器学习专业知识应用于古文字的破译,成为头条新闻。他和他的同事开发了一种算法,该算法根据语言随时间变化的模式来确定。他们用丢失的语言和已知的相关语言输入算法单词;它的工作是将丢失的语言中的单词与已知语言中的对应词对齐。关键的是,相同的算法可以应用于不同的语言对。

罗和他的同事们用两个已经被破译的古代文字测试了他们的模型:乌加里特语(与希伯来语有关)和线形B(首次在希腊克里特岛的青铜时代遗址中发现)。专业和业余的金石学家——研究古代文字的人——花了近60年的心血才破译了线性B。官方认为,30岁的英国建筑师迈克尔·文特里斯主要是破译了线性B,尽管古典主义者爱丽丝·科伯的个人努力为他的突破奠定了基础。科伯夜以继日地坐在纽约布鲁克林的餐桌旁,编撰了一个临时的线性B符号数据库,其中包括18万张放在香烟盒中的纸条,并利用这些纸条得出关于剧本性质的重要结论。她于1950年去世,比文崔斯破解密码早了两年。线性B现在被认为是希腊语的最早形式。

罗和他的团队想看看他们的机器学习模型是否能得到同样的答案,但速度更快。该算法产生了所谓的“显著准确性”:它能够将线性B的67.3%的单词正确地翻译成现代希腊语。罗说,一旦算法建成,运行它需要两到三个小时,省去了通过逐个翻译符号来手动测试理论可能需要的天数或周数——或月数或年数。Ugaritic的结果显示,与之前的自动破译尝试相比,情况有所改善。

这项工作提出了一个有趣的建议。机器学习能帮助研究人员破解其他尚未破译的脚本吗?这些脚本迄今为止一直抵制着所有翻译尝试?哪些历史秘密可能会因此而被解开?

英属印度,1872-1873年。亚历山大·坎宁安(Alexander Cunningham)是一名英国陆军工程师,后来成为了考古学勘测员。他在旁遮普省一座当地人称为哈拉帕的城镇的废墟上踱来踱去。表面上看,没什么可调查的:大约20年前,连接拉合尔和木尔坦两个城市的工程师们偶然发现了这个地点,并用他们发现的许多砖块——保存完好、经过火烧的——作为近100英里铁路轨道的道碴,愉快地意识到他们是世界上最古老的文明之一的残余。

坎宁安也不知道这一点——印度河流域文明直到20世纪20年代才被正式“发现”——但他知道该遗址具有一定的历史价值。在废墟中挖掘时,他和他的团队偶然发现了石器,他们推测这些石器是用来刮木头或皮革的。他们收集了古代陶器的碎片和一个看起来像粘土勺的东西。然而,最惊人的发现是一块约1.5英寸乘1.5英寸的小石碑。坎宁安在他的报告中写道:“上面深深地刻着一头公牛,没有驼峰,向右看,脖子下面有两颗星星。”。“在公牛的上方有一个六个字的铭文,我对此一无所知。它们肯定不是印度字母;由于伴随它们的公牛没有隆起,我断定这枚印章对印度来说是陌生的。”

我有一个廉价的第一枚海豹的复制品,是几年前从印度河流域遗址之一的博物馆礼品店买来的:上面的动物有一个粗脖子,一个隆起的躯干,还有一个俯冲的角。有些人坚持认为它是独角兽。上面潦草的铭文像是一串象形文字;一个角色看起来像鱼。在第一枚海豹被发现后的一个半世纪里,又出土了数千枚海豹:其中90%在现代巴基斯坦的印度河沿岸,其余的在印度或远至现代伊拉克。

我们现在知道,这些平板电脑被一位挖土机称为“受控现实主义的小杰作”,是印度次大陆的本土产品;研究人员认为,它们可能被用来关闭文件和标记商品包装,这就是为什么它们被称为封条。部分原因在于铭文中的符号在一端相互碰撞,几乎就像是题字者已经用完了空间,研究人员得出结论,这些铭文应该从右向左阅读。但我们仍然不知道他们到底说了什么。

这并不是因为缺乏尝试。学者们经常指出,印度河文字可能是历史上被破译得最多的文字之一。印度河文字收集了大约4000个出土铭文,包括400到大约700个独特的符号。自20世纪20年代以来,已经发表了100多次尝试。有一种理论将其与复活节岛的龙戈龙戈文字联系起来,该文字也尚未被破译;另一个是由一位自称通过冥想获得解决方案的德国坦陀罗大师提供的,他将其与用来书写苏美尔语的楔形文字联系起来。

对南亚的一些团体来说,破解印度河文字的努力几乎是存在主义的。印度和巴基斯坦因各自的宗教民族主义而日益分裂,它们与共同的古代历史有着明显不同的关系。巴基斯坦国深陷于作为穆斯林家园的理念之中,在很大程度上忽视了其前伊斯兰传统;另一方面,它的印度同行则开始翻阅历史,为印度一直是印度教国家的说法寻找理由。

在哈拉帕被发现之前,最早的印度人被认为是生活在公元前1500年至公元前500年之间的人,他们创作了吠陀,梵文文本构成了现代印度教的基础。一个生活在吠陀人之前的文明的发现颠覆了印度的故事。印度教民族主义最主流的派别印度教的支持者们认为,印度教文化削弱了他们对土著性的主张,因此对前吠陀文明的理论犹豫不决,尽管考古学、遗传学和语言学等学科都积累了证据。

因此,印度河流域研究中最小的进展往往远远超出学术界的范围。试图证明印度人民崇拜印度教神,并说早期形式的梵语的努力仍在继续。2000年,一位研究人员甚至对印度海豹的图像进行了数字扭曲,使其看起来像一匹马,这在梵文文献中占有显著地位。

撇开政治不谈,值得注意的是,我们对印度河流域的原始居民知之甚少,他们一度占世界居民的近10%。考虑到我们对他们同时代的人,比如埃及和美索不达米亚文明的人了解得更多,这尤其令人恼火。其中一个原因是印度河文字的难以捉摸。

让机器在印度河脚本上工作比用机器对线性B进行反向工程要复杂得多。关于印度河脚本,我们没有太多信息:最关键的是,我们不知道它可能与其他什么语言有关。因此,像罗这样的模型不适用于印度河剧本。不过,这并不是说技术帮不上忙。在某些方面,计算机建模已经起到了至关重要的作用:通过显示印度河文字是一种语言。

在20世纪的大部分时间里,印度河上的铭文被广泛接受为一种未经加密的语言的代表。然后,在2004年,一群哈佛研究人员——文化神经生物学家和比较历史学家史蒂夫·法默、计算理论家理查德·斯普劳特和语言学家迈克尔·维策尔——发表了一篇论文,基本上是对这一问题的几乎所有现有研究的诋毁。他们声称,印度河印鉴只不过是宗教或政治符号的集合——类似于公路标志——所有将其解读为一种语言的尝试都是浪费时间。为了强调他们的观点,法默向任何能找到包含至少50个符号的印度河铭文的人提供了1万美元的奖励。

大多数印支学者和其他印度文字研究者驳斥了这些观点。然而,一组数学家转向计算机来调查这些说法。剑桥大学统计物理教授Ronojoy Adhikari就是其中之一。

在剑桥大学之前,阿迪卡里在金奈的数学科学研究所工作。2009年,他参加了印度公务员、金石学家伊拉瓦塔姆·马哈德万的演讲。马哈德万于2018年去世,他已经破解了另一个未经破解的手稿泰米尔卜拉米,然后将注意力转向了印度河手稿。

阿迪卡里记得自己被迷住了。“我是一个理科人士,没有人文背景,”他说。“但我发现,马哈德万看待这个问题的方式非常有吸引力,因为他有一种非常定量的、几乎是科学的方法。他问,一个特定的符号出现了多少次?它发生的原因是什么?它发生的背景是什么?在我看来,因为它已经被如此定量化了ed,这很容易转化为正式的数学分析。"

出席会议的其他几位数据科学家与阿迪卡里联手。他们知道他们无法破译剧本。“所以我们问的问题是:我们至少能知道它是否传达了任何语言信息吗?”

在计算机科学家拉杰什·拉奥(Rajesh Rao)的带领下,研究人员设计了一个计算机程序,看看他们能否回答这个问题:印度河文字是一种语言吗?“你可以给我任何符号序列,我不在乎它们是什么——象形文字、书面语言、乐谱、计算机代码——我会从数学家的角度来看它们,”阿迪卡里解释道。“也就是说,我将简单地计算一个符号与另一个符号相邻出现的次数。”

他们的项目借鉴了克劳德·E·香农(Claude E.Shannon)的工作,他是一位20世纪中期的美国数学家、工程师,也是战时代码的解码者,他提出了信息熵的概念——本质上是一种无序的数学度量。在语言系统中,符号以某种固定的频率出现。“例如,我就是不能从字母表中提取一个字母,用字母表中的另一个字母串起来,然后期望得到一个英语单词,”Adhikari解释道。例如,在普通英语中,字母“q”后面几乎总是跟着“u”。这种半灵活性是所有语言系统的标志。另一方面,计算机代码是完全严格的:只要有一点点偏差,它就会崩溃。

研究人员为他们的项目提供了4000个构成整个印度河文字的铭文。为了更好地衡量,他们还在其他语言样本(英语字符和单词、梵语、泰米尔语、苏美尔语和塔加洛语)和一些非语言脚本(DNA、蛋白质、贝多芬的第32号奏鸣曲,以及名为Fortran的计算机代码)上运行了该程序。这个节目花了大约45分钟。

阿迪卡里回忆道:“我记得第一次出现这个情节。”。在这张图上,描绘音乐、蛋白质和DNA序列的曲线盘旋得很高,接近熵的最大水平,表明随机性很高。下面,已知的语言都在一个紧密的集群中。Fortran出现在下面。

至于印度文字,它和其他语言一起出现,就在梵语之下,几乎清晰地映射到泰米尔语上。“感觉棒极了。感觉真的很好。有预感很好,但能够证明它——我记得当时在想,是的,我们真的有了一些东西。”

当然,在显示一个脚本对一种语言进行编码和解码它所说的内容之间有很大的区别。

巴哈塔·安苏马利·穆霍帕德海耶在十多年前认识了阿迪卡里。当时,她是一名心灰意冷的软件开发人员,正在寻找一条逃生路线。当Adhikari开始探索深入学习的方法来制作剧本时,她正在寻找一名助手,她急切地主动提出。

深度学习是当今人工智能的主导技术。它主要是一种模式识别:你给机器提供的数据越多,机器就越能更好地解释未来的数据。但是,当涉及低资源(用罗的术语来说)的主题时,大数据集方法并不是特别有用,例如数据有限的印度河脚本。穆霍帕迪亚很快意识到了这一点。

“我应该是在编码,”她不好意思地说。“但是,我大部分时间都在读书。”

穆霍帕迪亚一个接一个地从兔子洞里钻了下去。她分析了美索不达米亚语、阿卡德语、苏美尔语和古波斯语词典。她自学了如何阅读埃及象形文字。“我意识到象征意义是多么微妙,”她说。“就像荷鲁斯神一样,他的眼睛被撕成了碎片。每个部分都被想象成一个分数——然后古埃及人从那里创造了分数的符号。”

即使在她帮助开发软件以帮助研究印度河脚本的同时,她对这种方法的怀疑也在增加。她解释说:“看,如果印度文字是阿尔法音节(一种被分成辅音和元音单元的书写系统,如乌尔都语/印地语),那么机器学习和人工智能将非常合适。”。但由于这些铭文似乎是图画性质的,因此它们构成了更大的挑战。“在这里,你必须了解印度使用的历史象征。人工智能将如何解决这个问题?人工智能如何知道这些象征代表荷鲁斯眼睛的碎片?”

在过去的几年里,穆霍帕德海伊一直在独立研究印度河铭文,重点关注单个符号。这涉及到提出一个特定的理论,然后对其进行测试——这是计算机不擅长的。

Mukhopadhyay在《自然》杂志的一篇同行评议论文中提出了自己的理论,她认为印度河印鉴用于税收和贸易管制——例如,收藏者可能随身携带印鉴作为一种许可证。在随后的一篇论文中,通过研究印度文明时期近东语言中用于“大象”的单词——皮里语、皮鲁语、皮鲁语和“象牙”——皮鲁语,她认为印度人民讲的是德拉维甸语的早期形式,德拉维甸语是泰卢固语、泰米尔语和卡纳达语等当前语言的语言祖先。如果研究人员能够成功地确定与印度河文字的当代语言关系,它可能掌握着破译印度河文字的关键。穆霍帕迪亚在解释她的工作时,她的耳环抖动着。它们是对大象头的艺术描绘。“毗卢,”她笑着说。

当前的人工智能迭代并不是为了部署Mukhopadhyay采用的那种方法。阿迪卡里现在对机器破译的前景也不那么乐观,他对机器破译的前景持怀疑态度。“我认为认知的许多方面我们无法在一个方便的框架中编码,”他说。“我不想冒险猜测,但我一生中都没有看到这种情况发生。我认为我们需要更好地了解我们的大脑。”此外,他补充道,并不是所有信息都能以计算机能够理解的方式量化。“机器能很好地理解一、二、三。二加二等于四,是的。但是……”他的目光越过了电脑屏幕。“但这里的日落看起来像一束美丽的火焰——嗯,正是这种抽象掌握着这部剧本的关键。”

无论采用何种方法,人工智能都依赖于以机器可读格式提供的高质量数据。对于古代文献来说,这仍然是一个关键的挑战,因为它们经常以其他形式出现在我们面前,有缺口、被侵蚀或不完整。学者们可以花几十年的时间来讨论符号的独特性:例如,这是一个已知字符旁边的划痕,还是一个新字符?考虑到在处理长期丢失的语言时,需要处理的信息非常少,嘈杂或不完整的数据可能会严重限制破译工作。

在过去20年里,温哥华的布莱恩·K·威尔斯和柏林的安德烈亚斯·富尔斯一直在悄悄地将所有已知的印度河印章和符号数字化。它们附加上下文信息——比如它们被挖掘的地点、时间以及旁边的文物——并在挖掘时添加新的信息。印度文字互动语料库(ICIT)目前包含4537件刻有文字的文物、5509件文字和19616个符号出现的信息,共有707个独特的印度文字符号,比之前确定的417个数量高得多。

早期的语料库是手工编制的。威尔斯认为,其结果是,它们非常有限,以至于有可能破坏脚本研究。“你知道旧电脑上说的话,”他最近在Skype上说,“垃圾进来,垃圾出去。”目前全世界有近50名研究人员在使用该数据库。

到目前为止,印度河文字的神秘之处仍然无法破解。去年,在一篇后续论文中,罗和他的团队对乌加里特语和线性B的解码进行了自动化,他们取得了一个微小但至关重要的进展:一种旨在识别未加密书写系统可能的相关语言的算法。这可能有助于解决破译尚未与已知语言进行比较的脚本的问题。罗和他的团队在伊比利亚语上测试了他们的模型,伊比利亚语在历史上一直与巴斯克语有关,他们的发现表明,这两种语言实际上不够接近,不可能有关联——这一结论证实了最近关于这一问题的学术研究。

罗说,虽然伊比利亚文字至少有80个独特的符号,但印度文字至少有400个,这使得它具有指数级的挑战性。然而,从理论上讲,现代机器可以处理这种水平的计算。有没有可能简单地用“蛮力”来解决印度河文字这样的问题——对照所有当代南亚语言对其进行分析,看看哪种语言与印度河文字最为接近?“这是个好主意,”罗在停下来思考后说。“如果我有时间,我一定会试试。”

罗很快指出,他不希望任何对丢失语言的破译都能完全自动化。“我的想法是:让系统提出候选人名单,让专家们看看,好吧,也许这个理论比另一个更正确,”他说。“这肯定会减少专家的工作量和花费的时间。”

并不是每个人都愿意接受机器的帮助。在决定使用伊比利亚语之前,罗和他的同事曾考虑过使用伊特鲁里亚语,这是一种来自前罗马时代意大利的未经解密的文字。“我们的一位合著者给这一领域的一群教授发了电子邮件,”罗笑着回忆道。其中一人回信把他们赶走。“他非常生气地回答

......