你,一个在大流行之年出现在英语互联网上的人,肯定看过关于新冠肺炎的公共服务信息。无论是线上还是线下,从洗手海报到社交距离胶带,再到遮脸的教学视频,你可能已经不可避免地看到了很多这样的东西。
但是,如果我们想要避免大流行蔓延到世界上所有的人类,这些信息也必须传播到世界上的所有人类-这意味着要以准确和文化上合适的方式将Covid PSA翻译成尽可能多的语言。
如果你在说英语的互联网上,你很容易忽视语言对健康的重要性,而这种头痛真的值得担心吗?只需在维基百科或WebMD上快速搜索一下即可。对于世界上超过一半的人口来说,人们不能指望在谷歌上搜索他们的症状,甚至不一定要从他们的医生那里得到一本解释他们诊断的小册子,因为小册子上没有他们能理解的语言。
我们想为我们的Covid Spring口述历史项目听取您的意见。发电子邮件至[email protected]。
“连线”杂志要求的一些细节:通过提交你的Covid Spring故事,你就同意了“连线”在Wired.com上找到的用户协议和隐私政策。所有投稿均为WIRED的财产,必须是原创的,不得侵犯任何其他个人或实体的权利。提交的内容和任何其他材料,包括您的姓名或社交媒体账号,可能会在任何媒体上发布、插图、编辑或以其他方式使用。
这种健康语言差距并不是Covid独有的。乌奎·卡沃克|玛雅健康联盟是危地马拉的一个非营利性组织,在过去的13年里一直在提供卡奇克尔语和Kʼicheʼ等玛雅原住民语言的健康支持。五曲Kawoq的一位早期客户是一位讲卡奇克尔语的女性,她知道自己患有糖尿病--她可以重复讲西班牙语的医生告诉她的名字,但管理糖尿病的很大一部分工作是通过饮食仔细平衡血糖,而一个不透明、没有翻译的名字对她没有帮助。也就是说,直到乌曲·卡沃克在咨询医疗专业人士后,在卡奇克尔-卡布凯尔(Kaqchikel-KAB‘kaik’el)为糖尿病起了一个名字,字面意思是甜蜜的血液。新的术语让五曲的卫生工作者很容易用她的母语解释如何管理这种疾病:你的血液太甜了,你需要通过少吃甜食来让它变得不那么甜。有了这些信息,这位妇女能够回去向她的家人解释他们需要如何做饭来帮助她。
就像糖尿病一样,Covid目前是一种生活方式疾病-在我们有疫苗或其他治疗之前,我们目前管理它的最好方式是通过改变我们的生活方式。所有那些洗手和社交疏远的海报。医生可以给不了解其工作原理的人开药丸或打针,但由于我们还没有针对SARS-CoV-2的药物,我们正面临着疾病控制和预防中心的流行病情报服务项目认为的通信紧急情况-世界卫生组织所说的信息紧急情况。
在过去的几个月里,五曲Kawoq已经从通常的任务(糖尿病、助产和儿童营养不良等初级保健问题,陪同土著客户到讲西班牙语的医院进行口译和宣传)扩大到与医生进行远程医疗电话的翻译循环,并制作玛雅语言的Covid播客在当地电台播出-这是在互联网服务并不总是可用的农村地区远距离传播信息的最有效方式。
这只是Covid在世界各地涌现的众多翻译项目之一。Adivasi Lives Matter一直在用包括科达瓦语、马拉提语和奥迪亚语在内的印度语言制作信息表。澳大利亚北领地政府一直在制作原住民语言的视频,包括Yolŋu Matha,Ptupi-Luritja和Warlpiri。西雅图的金县一直在用当地移民和难民社区使用的语言制作情况说明书,如阿姆哈拉语、高棉语和马绍尔语。VirALLanguages一直在用喀麦隆的语言制作视频,包括Oshie、Aghem和Bafut,由知名社区成员主演当地有影响力的人。就连历史上一直将普通话(普通话)作为唯一国家语言推广的中国,也一直在用湖北普通话、蒙古语、彝语、韩语等发布Covid信息。
根据濒危语言项目维护的一份定期更新的名单,来自信誉良好的来源(如政府、非营利组织和志愿者团体,明确引用其健康建议来源)的Covid信息已经用500多种语言创建,而且还在不断增加,其中包括超过150种语言的400多个视频。这些项目中有几个是用更多全球语言编写的更短、更标准化的信息,例如将世卫组织的五项准则翻译成220多种语言的海报,或将世卫组织破解神话的情况说明书翻译成60多种语言。但它们中的许多,特别是那些在全球舞台上没有得到很好代表的语言,是由个人、当地团体创建的,他们对特定领域感到有责任,包括政府、非营利组织和受过更多教育或进入互联网的志愿翻译人员。
仍然存在差距:南非政府在社交媒体上受到批评,因为它主要用英语进行简报,而不是用其他10种官方语言中的至少两种:恩古尼语(如祖鲁语或科萨语)和索托语(如塞斯瓦纳语或塞索托语)。英格兰因没有像苏格兰、威尔士和北爱尔兰那样在定期政府简报中包括一名英国手语翻译而面临法律诉讼。(从荷兰到新西兰,许多其他国家也积极增加手语翻译。)。
但总的来说,人们认识到语言是Covid反应的重要组成部分,这种理解是来自来之不易的经验。当呼吸系统疾病专家谈到新冠肺炎的前兆时,他们倾向于谈论非典和中东呼吸综合征;当语言专家谈到大流行时,有两个不同的先例不断出现:2010年海地地震和西非(2013年-2016年)和刚果民主共和国(2018年以来)的埃博拉疫情。
在这两种情况下,当地人说的语言都不是救援人员广泛使用的语言。在海地,这导致了一项名为Task 4636的倡议,在该倡议中,海地人可以将援助请求-例如发现有人被困在建筑物内,或需要医疗援助-发送到4636短信短码,来自世界各地的海地散居海外的志愿者将在平均10分钟内将数以万计的海地克里奥尔语请求翻译成英语,并将它们转发给当地讲英语的援助人员。
对于埃博拉疫情来说,语言挑战成倍增加。根据无国界翻译组织制作的地图,刚果民主共和国至少有七种主要语言-法语、基孔戈语(基图巴语)、林加拉语、斯瓦希里语、齐鲁巴语、讲法语的非洲手语和美国手语-以及在特定地区常见的更小的语言。无国界翻译组织(Translators Without Borders)最近的一项研究指出了这些资源应该是什么样子,反映了我们可以称之为WebMD你的疾病的普遍人类愿望:研究参与者对“你必须早点去埃博拉治疗中心才能治愈”这样的信息表示失望。他们想要更详细和更复杂的解释治疗药物是如何起作用的,以及为什么他们被选为…。人们想要复杂问题的细节来指导他们的决定,他们想要用他们所说的“社区语言”--意思是用他们所理解的语言和风格,使用他们熟悉的词语和概念来表达他们的决定。
不理解社区语言可能是疏忽的-依赖法语和斯瓦希里语等通用语对刚果民主共和国的妇女造成了不成比例的伤害,她们更有可能只说南德语和其他当地语言。这甚至可能适得其反。罗布·门罗(Rob Munro)曾致力于海地地震和埃博拉病毒的语言技术应对工作,他给我讲述了埃博拉危机期间塞拉利昂的一个故事,在那里,天真的改善者蜂拥而至,制作关于埃博拉病毒的公共服务公告,只是
但在一场流行病中,挑战不只是在一个地区翻译一种或几种主要语言-根据我采访的专家的综合估计,这一规模可能会达到数千种语言,在当今世界7000多种语言中,至少有1000到2000种。所有专家都强调,这个数字非常不确定,但肯定是他们同时面临的最大数字。这一数字可能会达到数千种语言的规模,但根据我采访的专家的综合估计,这至少是当今世界7000多种语言中的1000到2000种。所有专家都强调,这个数字非常不确定,但肯定是他们同时面临的最大数字。
机器翻译在某些情况下可能会有所帮助,但需要谨慎对待。下面是一个例子,说明连洗手这样简单的短语都会出什么问题。谷歌翻译提供的日语版洗手是手を洗いなさい(Teo Arainasai),我被告知这句话在语法上是正确的,但也是一种适合父母对孩子说的风格。这句话在日语中的意思是“洗手”。谷歌翻译提供了一个相当于“洗手”的日语词组,意思是“洗手”(Teo Arainasai),我被告知这句话在语法上是正确的,但也是一种适合父母对孩子说的风格。在某些情况下当然是合适的,但也容易在针对成年人的海报上留下不好的印象(用公共卫生的话说就是降低遵从性)。
因此,我向我的推特追随者发起挑战,让他们找出他们精通的任何语言,其中谷歌翻译版的“洗手”特别适合公共服务公告或海报的风格。同样,许多语言确实会产生语法结果,但是对于欧洲语言,网站倾向于返回非正式的单数形式的";you";(";tu&34;或";du";form)。非正式用语通常适用于演讲,但不适用于官方海报,因为在官方海报中,大多数说话者希望使用非人称(要求洗手)或礼貌形式,如#34;vous&34;或";usted&34;或";si.&34;从十几种语言中,我们发现只有两种语言的结果适合做手势:韩语和斯瓦希里语。适当性可能看起来微不足道,但想象一下,你的医生问你,一个成年人,你的肚子是否有猫头鹰,而不是问你是否有腹痛。它只是…。并不能真正激发自信。
这并不是说机器翻译对某些任务没有帮助,在这些任务中,快速掌握要点比人类擅长的细致入微的翻译更重要,比如在收到求助请求时,对它们进行快速分类和分类,或者密切关注是否出现了新的误解。但是人类需要保持在循环中,人类和机器语言的专业知识都需要在平静的时期投入,这样才能在危机中有效地使用它。
机器翻译更大的问题是,它甚至不是许多涉及的语言的选项。无国界翻译组织(Translators Without Borders)正在将Covid信息翻译成89种语言,以回应实地组织的具体要求,其中25种语言(约三分之一)根本不在谷歌翻译中。机器翻译特别适用于拥有大量资源的语言,新闻网站和字典等可以用作训练数据的东西。有时,就像法语和西班牙语一样,前殖民大国资源丰富的语言也可以作为通用语言进行翻译。在其他情况下,机器容易翻译的内容和对TWB有用的内容之间存在不匹配的情况:该组织一直在回复大量关于Kanuri、Dari和Tgrinya的Covid信息的请求,这些请求都不在谷歌翻译中,但还没有看到荷兰语或希伯来语的请求(这些内容在谷歌翻译中,但不需要TWB的帮助-他们已经有国家政府在制作了。
谷歌翻译支持109种语言,必应翻译支持71种,甚至维基百科也只有309种语言-与濒危语言项目(Enangered Languages Project)名单上的500多种语言相比,这个数字相形见绌。濒危语言项目都是人类创造的资源。安娜·贝鲁(Anna Belew)自3月中旬以来一直在编制这份榜单,她告诉我,她每天都在增加十几种语言,如果说有什么不同的话,那就是这是一个被低估的数字--根据与TWB类似的优先顺序,这份榜单故意排除了荷兰语等资源丰富的国家语言(除非它们也是共同语言,比如法语)。当然,翻译几个文档要比创建一个完整的机器翻译系统容易,但是第一个也可以帮助第二个。
像大流行这样的危机可能会暴露出一个系统中已经存在的缺陷和潜力。一方面,减少汽车和飞机出行意味着改善空气质量和减少碳排放,这是在重新开放过程中解决另一个重大棘手社会问题的潜在机会。另一方面,受到Covid不成比例影响的是那些已经被边缘化的人,包括移民工人、难民和土著人民-这是一种不同类型的重大社会问题,重新开放只会使情况变得更糟。
互联网语言结构的缺陷是
从长远来看,无国界翻译组织的目标也是通过一个名为新冠肺炎翻译倡议(TICO-19)的项目来帮助解决这个技术问题。TWB正在与卡内基梅隆大学(Carnegie Mellon)的研究人员以及微软(Microsoft)、谷歌(Google)、Facebook和亚马逊(Amazon)等大型科技公司(苹果除外)的一位名流合作,通过这些公司的翻译网络(以及他们的一角硬币),将Covid相关材料翻译成36种语言。下一步将是将这些新翻译的材料重新用作训练数据-每种语言都需要大量的文本和录音,作为机器翻译和自动语音识别等工具的原材料。
它不是500件,甚至也不是TWB&B;长达89件的清单,但每件都有帮助。我只希望CMU的博士后安东尼斯·阿纳斯塔索普洛斯(Antonis Anastasopoulos)说,他正在研究TICO-19,他希望所有这些伟大的举措都能以开放许可的纯文本形式发布他们的数据,以及那些很容易在社交媒体上分享,但机器很难阅读的PDF或图像文件。
在这方面,现有的关系再次至关重要-TICO-19之所以能够如此迅速地发展起来,是因为自2017年以来,无国界翻译组织一直在开展一个名为Gamayun的类似的规模较小的项目,与科技公司合作,将材料翻译成10种关键的未被充分代表的语言,并将其重新用作培训数据,以获得卡努里语(针对尼日利亚东北部的国内流离失所者)和罗辛亚语(针对孟加拉国的罗辛亚难民)等关键语言的技术产品支持。
正如我们在抗击病毒方面的最大努力是许多人做出的一大堆小而平淡无奇的决定-呆在家里,洗手,艰苦地测试候选疫苗一样,通讯方面也是如此。还有一项任务是将海报模板和视频脚本出租给翻译人员,跟踪哪些语言是最新的,这样就不会重复工作,还可以通过WhatsApp家族群发海报和视频。在前互联网时代,这一切都是不可能的,特别是在社会距离的情况下。但他们依赖于不起眼的、人为中介的工具,如共享电子表格、电子邮件列表和手机摄像头,而不是突如其来的人工智能来拯救世界。
历史学家和小说家阿达·帕尔默指出,这是人类历史上第一次对疾病和卫生有了了解,我们实际上知道需要做些什么才能把它拖延足够长的时间来研发疫苗,使社会疏远成为一种现实的战略,即使它颠覆了我们的一生。因此,这也是人类历史上第一次大流行,我们有能力和责任分享这种理解,一个最终覆盖全球每个角落的语言关怀网络。
“你并不孤单”:一名护士如何面对大流行