编辑注意事项:此帖子包含一些罕见的Unicode字符,其中一些字符可能无法在旧系统上正确显示。
5月20日5月,分布式校样器(DP)站点移动到使用Unicode UTF-8字符库。 “这是一个非常重大的变化,”Linda Hamilton总经理说。 “这一举措多年来一直是长期目标。” (有关此巨大改进的更多信息,请参阅DP Wiki文章网站转换为Unicode。)现在,DP可以从中选择超过200个分类的字母,数字和Quiggles。
我们谦虚地启动,提供了很少的额外角色,例如“œ”连字经常在旧书中发现œdipus或cœlacanth。不过,DP网站开发人员正在拿起节奏,为项目经理提供越来越多的其他角色套件可以分配给他们的项目。我们为不同的欧洲语言推出了三个角色套房 - 与ĝ,đ或Ł这样的字母;基本希腊和多元希腊字符套房;一个用于中世纪书中的字符,如ƿ或ȳ。此外,项目管理人员现在可以将个别Unicode字符添加到所需的项目中。这些字符可以包括较少熟悉的标本,例如ŧŧ♅◘,在校对屏幕上的“自定义”字符套件中。
这真的如何使我们在DP中受益?主要是,基于Unicode的编码允许我们支持使用“拉丁语-1”字符套件外的字符的语言,这是我们之前所提供的。
让我们参加一个重要的例子:古希腊语。为什么重要?因为我们在19世纪或之前工作的许多书籍,所以在希腊语中遏制希腊语或整个段落。当时的作家认为,读者更加学术类型的书籍将学习希腊语(以及拉丁语)作为其教育的一部分。
我们几个月前在这里报道了DP如何处理葡萄牙的希腊历史,这是一个巨大的工作,与含有希腊文本的数千脚注。大部分工作都倒入了后处理器,在它已经被校对后准备最终出版物的项目。使用Unicode,校对者可以分享乐趣!
以前,校对者没有使用希腊字符。要在校对期间代表文本,需要一个环形交叉路口进程,其中校对程序在我们熟悉的罗马字母表中编写的希腊语的音译版本,如[希腊语:mêdeneinmêdegrammate],将重新转换回原始的希腊语 - μηδὲὲνεῖν μmδνγράμματα - 由后处理器。但现在,校对者可以生成正确的文本,在一套完整的希腊字符上绘制。这就是校对屏幕的相关部分如何查找包含希腊字符集的项目:
询问校对员与希腊字母一起使用,现在光学字符识别(OCR)软件在阅读希腊语时变得更好。看看2005年由希腊页的OCR:
看起来像这本书写在克林贡不是吗?现在比较这个,从2020年开始:
仍然远非完美,但足够好,校对者不必从头开始重新键入整件事。使用扩展字符集,他们现在可以纠正来自OCR的希腊文本,就像他们自己的语言中正确的文本一样。
它与其他类型的字符相同。如果校对者在中世纪书中遇到一个不熟悉的信,而不是打字[yogh](例如),他们现在可以输入实际字母ȝ。我们继续添加更多的字符集来满足我们各种项目的需求。最近的是一组用于罗马化形式的语言,如阿拉伯语,希伯来语和梵语,所以我们可以重现“ala'uddīn或mahābhārata或viṣṇu”(以前必须证明的vi)的准确音译。 ] [n。] u)。还有一个“符号集合”,包括天文学,黄道带,药剂师和音乐符号。通过这个系列,如果我们校对占星术书,而不是[汞]我们现在可以简单地添加☿。配方以获得一个过去的药剂药水?不是[**盎司],但℥。等等。
因此,使用Unicode,校对家知道其他人不需要来改变所有尴尬的符号。现在他们可以完成整个工作并生成一个精确的数字版本原始页面,无论是什么字符都在上面!