这是一个庞大的项目,不能掉以轻心。一定要考虑为什么你认为你需要这样做,以及你最终到底希望得到什么。档案馆有数以千计的子集,也许你真的想要一套更小的。这些说明适用于那些较小的设备,您可以更快地掌握它。
嗯,首先,要记住档案馆里50多PB的数据存储中有不同类别的材料。有可以下载的素材,只能查看/流式传输的素材,以及内部使用的素材,如回路机或数据库存储。我们将留出20多PB的材料用于讨论,除了您可以像任何网页那样通过直接下载和镜像来获取网站之外,我们还将把这20多PB的材料放在一边。
这就留下了许多您可以直接访问的集合和项目。它们往往采用https://archive.org/details/identifier的形式,其中标识符是物品标识符,更像是散布在存放物品的几十个架子中的目录。默认情况下,这些设置完全开放供下载,除非将它们设置为各种流/示例设置,此时,出于本教程的目的,根本无法下载-仅供查看。
要查看项目的目录版本,请将详细信息切换到Download,如Archive.org/download/Identifier-这将显示项目的所有文件,包括原始文件、系统文件和派生文件。让我们来谈谈这三个问题吧。
原始文件是由用户或脚本上传到标识符中的文件。它们永远不会被系统修饰或触及。除非出现问题,否则您下载的原始文件与上传的文件完全相同。
然后,归档中的脚本和处理程序会创建派生文件,以使它们更易于交互。例如,PDF文件被派生为epubs、jpeg-sets、OCR&d文本文件等。
系统文件由档案馆的脚本进程创建,以跟踪元数据、有关项目的信息等。它们通常是*.xml文件或缩略图等。
通常,您只希望原始文件以及元数据(来自*.xml文件)具有项目的核心。这将为您节省大量磁盘空间-派生文件始终可以在以后重新创建。
从互联网档案馆下载的最佳方式是使用官方客户端。我在这里写了一篇IA客户端的介绍:
要获取集合的项目,请执行ia搜索Collection:Collection-name--itemlist然后,使用ia Download下载每个单独的项目。您可以使用脚本执行此操作,甚至可以并行执行。还有--retries命令,以防系统加载或出现其他问题。(我建议检查文档并仔细阅读-也许人们可以回复他们所发现的食谱。
就像互联网档案馆的藏品以这种方式讨论时经常出现的情况一样,人们提出了通常的解决方案,我称之为三大解决方案:
我很感谢人们考虑这些解决方案,并将在帖子中回应它们(或发布新的独立信息)。与此同时,我要说的是,档案馆支持并使用了一个名为分布式网络的概念,它既包括讨论和会议,也包括拟议的技术-至少,它很有趣,与人们想到分担负担时所想的大致相同。在此期间,我要说的是,档案馆支持并使用了一个名为分布式网络的概念,该概念既包括讨论和会议,也包括拟议的技术-至少,它很有趣,就像人们想到分担负担时所想的那样。常见问题解答:https://blog.archive.org/2018/07/21/decentralized-web-faq/