我被要求为 Ariadne 十周年写一篇文章,自从 1996 年作为 eLib 计划的一部分成立以来,我一直很享受这项冒险,当时我是该计划的项目主管。几年前,我为 Ariadne 写了一篇题为“After eLib” [1] 的文章。最初的建议是“在 eLib 之后更进一步”;但是,我现在为 JISC 工作,这可能很难做到客观! “回到电子图书馆计划,我最喜欢的一些项目是什么(我不会说最好的;这绝对是一个主观列表)?我个人最满意的项目是 CEDARS [2],数字保存项目。确保数字材料的长期存在并不是福莱特报告的一个要素,当我开始考虑申请项目主任的工作时,这似乎是一个重大差距。其他人也意识到这一领域的重要性,尤其是FIGIT 主席林恩·布林德利(Lynne Brindley),现任大英图书馆首席执行官。我们仍然将 CEDARS 作为一个探索性项目的试点理念(连同其 JISC/NSF 资助的伙伴 CAMiLEON [3] 具有很高的国际知名度),而不是一个成熟的数字保存服务;这是另一个例子,说明很难通过对服务的研究来采纳甚至广泛支持的想法。这方面的技术问题也确实没有解决,但真正的问题是组织和政治问题,而不是技术问题。我希望在这个过渡时期,我们对这个问题的认识足够提高,能够找到临时的权宜之计,这样就不会失去任何重要的意义。”我现在在数字策展中心工作,该中心致力于帮助改善对数字保存和策展的支持。在我的第一年,我有机会听了许多关于特别是保存方面的演讲,并阅读了许多文章和其他文本。在此过程中,我有机会寻找 eLib 项目 Infobike 的成果。 eLib Program 页面仍然存在 [4],并且这些页面中的项目描述也存在 [5]。但是,它所引用的项目网站不存在。由 JISC 赞助并包括一些 eLib 项目的 UK Web Archiving Consortium 未能存档该项目的成果。我们必须去 Internet Archive 的 Wayback Machine 中查找 Infobike 项目网站的档案,时间从 1998 年 1 月到 2003 年 8 月 [6]。在那里,我能够找到项目的一般描述、架构图和系统组件的描述。不需要任何花哨的东西;只需访问资源和当前的 Web 浏览器。这再次唤醒了上面“电子图书馆之后”段落末尾确定的思路:如果我们无法访问数据本身,所有这些宏伟的数字保存理论有什么用?从那时起,一些关于数字保存的常见断言或假设开始让我担心。没有人说过所有这些事情,但它们似乎越来越多地出现在对话的背景中。我将把这些作为陈述清单提出来,但至少在某些方面,我认为它们是谬论:“互联网时代”的期望是这样的:保存的对象必须能够以 de jour 的格式轻松即时地访问
这些说法看似合理,也许确实如此。然而,我觉得我们可能会从一个相当黄疸的看法中受益。所以这就是我认为我会尝试写这篇文章的原因。请注意,这里提出的论点并没有在我的脑海中解决;事实上,这在某种程度上是与我争论的一部分!数字保存贵吗?就看你是不是跟打印保存比较了!在这一点上,有两个思想实验值得做。首先,想想离你最近和最亲爱的研究图书馆、国家图书馆或研究档案馆。它将是一座大建筑(一座非常大的建筑,通常相当宏伟),通常内部空间比例相对较小。想想看管这些建筑物中存货的图书管理员、档案管理员等的数量。只需计算它必须花费多少!国家档案馆的阿德里安·布朗写道:“2002 年,存储和保存我们的实物记录库存(现在已经增长到 176 公里)花费了 1430 万英镑 [……]。检索供读者使用的纸质记录的费用约为 6 英镑;通过互联网交付一个成本为 13 便士”[7]。是的,这是访问而不是保存,但在物理世界中,这两者是紧密联系在一起的。 Atlas Petabyte Data Store [8] 的成本是几百万英镑;任何大型研究图书馆的成本都高达数亿英镑。在第二个思想实验中,想象一个数字世界,其中最近发明了一种名为“组织知识的基本对象”的奇妙新技术。你是一所主要研究型大学的信息服务负责人(通过数字存储库的访问服务提供所有这些数字服务),并且必须说服你的校长为这些书籍投资一个新设施;可能有几百万个(只是数字商店中物品数量的一小部分)。您可能可以自己编写采访脚本……“您想要一座 10 层楼的特殊建筑,具有巨大的楼层负载和特殊的环境?你想要 200 名员工?你要几百万英镑?毕竟,用户必须进入设施才能访问这些书籍?你肯定是在逗我;滚出我的视线!”我的观点是所有的保存都是昂贵的,但我们已经习惯了并接受它作为有文化和受过教育的生活成本的一部分......至少在印刷世界中。用于保存数字材料的资金相对较少,而且以任何单位计算,可能仍将如此。问题是,这是一项新的成本,我们还没有想出如何将其纳入我们的预算和商业模式。我的猜测是,从长远来看,我们会意识到印刷保存非常昂贵,而数字保存相对便宜!有很多关于文件格式迅速过时的相当恐慌的讨论。有些是对的,有些则不然。在某种程度上,这取决于您的时间表(请参阅上面的谬误列表中的 4)。我认为我们需要仔细分析文件格式的含义。通过简单的分析,我可以找到以下有些不同的案例(可能还有更多): 来自基于标准、社区或开源项目的文件格式(可能与之前的案例没有完全区别)
受数字版权管理系统保护的文件格式,或其他形式的加密或专有编码。这份清单足够长,可以看出这里有一些微妙之处。很明显,前三个案例确实提供了早期报废的重大风险,而最后一个案例当然也代表了重大的损失风险。如果文件没有与其伴随的元数据或文档一起被照顾(或者如果它们从未存在过),则在情况 6 中存在重大风险。但是,我认为大多数人会认为格式很快就会过时的格言特别适用于案例 5,即面向消费者的商业产品的文件格式。我以前也是这么想的。但是我四处打听,我找不到今天完全无法访问内容的此类文件的任何好的示例!因此,在这篇文章中,我邀请任何拥有案例 5 的良好示例的详细信息的人,回复数字策展中心协会网络论坛 [9] 上有关此主题的帖子,或通过本文底部显示的地址向我发送电子邮件文章。也许这里发生了两件事:一是关于为什么这种谬论如此广泛持有,另一是关于为什么它可能不如本来的那样真实。许多与保护有关的人是(实际上)老年人,他们在前互联网时代长大。那时的情况确实发生了迅速的变化。经理们面临着做出技术选择的问题,而这些选择似乎确实让他们陷入了技术死胡同。一切都有许多不同的选择,互操作性相当弱。变化很快,一家又一家公司倒闭或被收购。过时是一个真正的担忧。在我看来,如今向消费市场的转变和互联网大规模访问的兴起使事情相对稳定。不知何故,该系统获得了前所未有的巨大动力。进入市场的成本大大增加,选择和品种减少。大众市场消费产品新发布的步伐有所放缓。对于所有细分市场而言,情况可能并非如此(例如,本文计划使用其中一种软件产品进行思维导图 [10],该细分市场产品之间甚至版本之间的文件格式不兼容现象普遍存在),但确实如此对于那些创建大多数感兴趣的文件以供保存的大众产品来说,这一点越来越适用。请注意,我的论点是关于信息内容的完全丢失。有明显的例子表明从旧文件中恢复信息是部分或不完整的;参见 Paul Wheatley 等人的 Representation and Rendering Project Report,例如 [11]。通过共同努力,我们有可能对其中一些文件格式做得更好;例如,现在可以访问范围广泛的图形格式,部分原因是许多个人爱好者的共同努力。这里的部分关键是收集和共享信息。这就是在注册管理机构中收集代表信息的一些努力非常有价值的地方。第一个这样的重大努力是来自英国国家档案馆的 PRONOM [12];在不久的将来,来自数字策展中心 [13] 的表示信息注册和存储库预计将投入使用,我们最近听说哈佛大学图书馆和其他机构的全球数字格式注册项目 [14] 已由以下机构资助梅隆基金会。如果这些注册机构能够找到共享信息的方法,并在不相互依赖的情况下划分问题空间,我们应该能够取得良好的进展。
我的论点很可能有两个缺陷:真正具有破坏性的技术变革和延长的时间。互联网和 1990 年代初期出现的大众消费市场是以前难以想象的,并且对事物的运作方式产生了根本性的影响。我们应该期待在接下来的 10 年或 20 年内会出现一些这样的变化,并且将我们任何舒适的预测(和计划)抛在轨道上。很明显,如果时间足够长,这些无法访问的格式问题将以一种或另一种形式出现。然而,时间在很多方面都是保存库的一个问题,并且是下一节的主题。这个谬误是从最后一个。简而言之,如果文件格式很快过时且无法访问,则必须经常进行数字保存干预以减少丢失。荷兰的知识库 [15] 在其成本模型中建议,文件迁移可能需要每 3-5 年一次。但是,如果如上所述,整个系统获得了足够的动力来部分稳定,那么可以合理地打赌,如果谨慎选择当今当前的文件格式,在 10 到 15 年之后仍然可以访问。现在看来确实是这样;尽管大多数有权访问较旧文件(例如 10 年左右)的人可能会提到在访问其中一些文件(例如 Microsoft Office 版本 4 文件格式)时遇到一些困难,但这些通常并非不可克服。有些人可能认为这是一个非常危险的论点,鼓励自满。肯定存在风险(自满本身就是一种非常高风险的策略!),但关于数字保存成本持续高昂的争论也是一种严重的威慑,对此的答案往往是举手说“做不到!”。对数字保存的投资对文化、科学、政府和商业机构很重要。通过平衡成本和风险来证明投资是合理的;他们正在为未来下注。这些赌注的优先事项应该是:首先,确保重要的数字对象被完整地保留,其次,确保有足够的元数据来了解这些对象是什么,以及必须如何访问它们,第三次确保进行数字化。保护干预措施。这确实与我的最后一个谬论有关,提出了成本应该在多大程度上加载到存档或最终用户上的问题。但是,首先值得多考虑一下时间尺度。许多关于数字保存的文献都假设了很长的时间尺度,有时是数百年甚至数千年。例如,有人看到一些评论表明存储库必须防范的可能风险之一是英语的丢失;因此可以建议处理此类情况的部分表示信息将是英文词典(有趣的是,它们有时仍然预先假设了 Internet 和 Web)。实际上,直到最近,几乎所有的数字保存都是由短期项目资金资助的。数字策展中心发展副总监 David Giaretta 明智地指出,数字保存所需的主要资源是金钱 [16] 实际上,数字保存的最大风险确实是金钱。谁有资源做出百年数字保护承诺?谁能做出百年回报的投资案例?金钱问题还有另一个副作用。需要投入昂贵基础设施的资金越多,可用于解决数字对象实际风险的资金就越少。 Rosenthal 等人指出:“很少有机构有足够的数字保存预算;他们必须实行某种形式的经济分类。他们将保留比应有的更少的内容,或者承担更大的风险,以满足预算限制。获取和操作系统的成本降低,直接导致更多内容被保存或保存内容风险降低的组合。”[17] 因此,针对很长的时间尺度进行设计本身就有可能造成损失。
确实,我们开始看到数字保存库的出现,它们可以正确地论证它们有一个百年的时间尺度。谁能怀疑大英图书馆、国家档案馆和其他国家记忆机构有长远打算?但即使是他们也无法免受破坏性技术的影响。另一个思想实验在这里可能会有所帮助,对你们这些年纪够大的人来说。让你的思绪回到 1990 年代初期。这是互联网出现之前的那个时期,当时 Gopher 是王者,万维网似乎并不比 WAIS(广域信息系统)更可能成为一项成功的技术。那个时候谁能想象今天的世界?谁会在 1992 年规划一个百年数字保存库,做出我们今天认为正确的决定?是什么让我们认为我们现在可以做得更好?有一种强烈的趋势将当前的情况预测为未来(并且可能会认为我已经这样做了,上面)。在我看来,对我们大多数人来说,将数字保存视为一系列持有位置,或者可能是一种中继,更有意义。根据您可以预见的时间范围和您有资金的时间安排您的处置。尽最大努力保存您的物品,并在接力赛结束时将它们有序地交给您的继任者。这里的良好状态意味着数字对象完好无损,并且您拥有足够的元数据和文档来证明真实性、出处,并为未来用户提供访问或使用这些数字对象的良好机会。保存的对象必须在各方面都忠实于原作吗?打扰一下…… CEDARS 项目 [2] 的关键思想之一是“重要属性”;另一个(来自 OAIS(开放档案信息系统))是“指定社区”。数字对象(被视为数据结构加上中介软件)具有大量可能的行为。想想文字处理器(如 Microsoft Word)在数字文档上运行的所有功能。在文档的创建阶段,这些功能的一个子集(可能不是一个巨大的子集)发挥作用。其他功能仍然未使用,但只要文件保留在可以使用相同软件访问的环境中,就可能会使用这些功能。其中一些功能(例如提取更改历史记录)可能对某些潜在用户很重要。其他用户可能只想要阅读文档的能力,或者可能将摘录剪切和粘贴到其他文档中(比创建者所需的能力的子集更小)。这里的问题是没有办法精确定义指定的社区,同样也没有办法预测未来用户可能认为重要的属性。这导致必须在各方面忠实于原作的保存压力。同样,即时可点击、可访问结果的互联网范式似乎也被用作保存的“必备”方面。将过去保存的数字对象的全部功能结合起来,在今天的环境中立即可用,可能是最终目标,但成本非常高。如前所述,高成本保存意味着保存的数字对象更少。
这种情况在印刷界也有其共鸣。以沃尔特·斯科特爵士 (Sir Walter Scott) 的凯尼尔沃思 (Kenilworth) 之类的书为例 [18]。斯科特热衷于匿名出版,因此每一章都被发送给不同的抄写员,以掩饰斯科特的笔迹。这些章节然后由抄写员发送到打印机,排版和组装。由此产生的书,以当时厚重的字体,用皮革装订,充满错误,对我们大多数人来说是一本令人生畏的书,但对斯科特学者来说却是巨大的兴趣。对于不太学术的人来说,很高兴现代版本可以广泛使用;他们认定 Scott 是作者,并旨在“纠正”早期版本中的许多错误。因此,现代版的外观、重量、分页、作者、出版商和文字与原始出版物有很大不同。尽管有这些变化,但我们很满意这个非常不同的人工制品代表了与原作相同的“作品”。对我们来说,故事是重要的财产。对于学者来说,原创是必不可少的。在这种情况下,斯科特学者和公众是完全独立和不同的指定社区。在印刷界,这些指定的社区长期服务于非常不同类型的保护活动。国际图书馆系统的“侨民保护”可以很好地为公众服务。大量的书籍副本,也许有多个版本,确实可以确保作品的重要财产安全。学者需要访问早期版本的少数剩余副本;保存在特殊收藏中,在昂贵的受控环境中,也许可以在无酸支架支撑的特殊阅览室中访问,用特殊手套处理......我的印刷示例中的现代版本确实需要学者在早期版本中的工作。然而,那个学者必须准备做比一般大众更多的事情才能访问......