互联网存档在Web的未来

2021-03-17 04:14:30

互联网'第一个图书管理员喜欢回忆。早期的互联网就像是互联网档案创始人的幻想,当关于当前的问题变黑或沮丧时,他在谈话中又回来又一次地回来了。 Brewster Kahle可能比其他任何人更了解网络的早期几年。

他有机会谈论档案馆,也许这些日子比他应该更多地谈起。讨论其未来有时会严峻,或者至少不确定。 Wayback机器的荣耀,数据在世界各地的仓库中捕获人类存在的每一天,从我的推特向俄罗斯政府到中国的俱乐部家庭旅行的爬行者流畅的爬行系统 - 在盛大计划中历史,这一切都可能是短暂的黄金时代。

所谓的互联网的Balkanization' t只是互联网档案的理论问题。如果互联网防火墙在中国熬夜,伊朗和俄罗斯,新内容主要持续到PayWalls和密码后面,美国政治领导者决定'最后,第230节的终于时间,简单的公式保存的爬行者仍然存在几十年来未来的历史学家可能不会对未来几十年来做同样的事情。

"您可以在那里越来越多的墙壁花园。我们只需疯狂的爬行,就像任何人都可以被封锁一样被阻止," Jefferson Bailey说,档案馆兼第39位Web归档和数据服务总监。

但即使仍然,直到某人或某事物从根本上改变了网络规则,互联网档案将继续做它自1996年以来一直在做的事情:保留你或我可能会读过的每一块文本的片段。 Tech' S walled Gardens可能会使宽容造成完美的画面,但互联网档案馆的小团队,数字档案馆和软件工程师在互联网档案计划中,继续将世界带来Wayback机器,开放式图书馆,软件存档等等,直到时间结束。字面上地。

当Kahle在早期的麻省理工学院的学生时' 80年代,他使用了教授' s' s id闯入哈佛法律图书馆以访问项目的案件。如果他的一生中有片刻封装在互联网之前封装了获取信息的关闭性,那就是这样。

但今天,任何人都可以找到他需要的信息,而不是如图所示。 "通常,事情非常封闭并锁定。从历史上看,这是一个非常罕见的时刻,"他说。

然而,这很快就会改变。 "我们是否有锁定的风险?是的,绝对,"他说。互联网档案目前在中国被封锁,偶尔在俄罗斯,印度和土耳其以及国家政府的狂想突发事件,恰好在国家政府的呼扰,有助于这项工作。根据卡勒和贝利的说法,公司正如能够以更加易于访问和存档的方式破坏网络;偶数"用户锁定"对于特定的浏览器和产品可以有一天创建互联网泡沫,然后是墙壁,基于人们的人们付出代价。

" Facebook和谷歌正在接管,他们想赚钱," Bailey说。在密码背后的互联网上行动的人越多,网站就越多,开放的互联网学习就越远离公共意识,宽松迈向卡勒恐惧的碎片。

"那个对每个人的战略关注。当然,它也影响了归档," Bailey说。该存档最适合捕获Twitter,Tumblr,Instagram,YouTube,Vimeo,Facebook等。根据Bailey的说法,Facebook是最艰难的,因为该公司通常是归档 - 不友好的。但实际上,如果这些社会公司中的任何一个都决定阻止互联网档案从事工作,他们可能可以,他说。

"我们'嵌入在社区中," Bailey说。 "在一天结束时,我们只是一个图书馆。"

卡勒担心最终的"围墙和#34;互联网可以在一个不协调的地方发展:从科技公司渴望规定,通过扼杀未来的创新,可以解决自己的地位。例如,几乎任何提议的改变部分第230节 - 保护网站所有者免受其用户发布的内容的法律责任 - 将破坏保护互联网档案的精致法律框架(以及维基百科和用户据kahle表示,协调项目)。 Facebook' S Mark Zuckerberg是许多技术领导者,以表达对重写的支持。

和科技公司,书籍出版商甚至音乐行业都会偏离限制,改变甚至删除一般版权博览会使用例外,以及具体版权,并为图书馆使用豁免。对这些法律的变化可以(意外或故意,根据您的要求谁)使人们在线分享创意工作的更难,以及像互联网档案这样的团体来保存它们。

"他们为什么这样做?有人说它'钱。但是,当你有寡头,它真的关于保护市场上的新进入者,"卡勒说。在一天结束时,大公司已经适应了当前的法律制度,他们有资金和技术诀窍能够倡导更加严格的法规,以便在改变或限制公平使用时保持垄断的规定保护。

直到当天,这些更有存在的问题坚定到卡勒可以与言语一样战斗,互联网档案'日常斗争保留了不断的瞬态网络。网页在改变或消失之前大约90天的平均寿命,因此存档需要至少每90天捕获这些页面,以随着时间的推移保持网络的完整情况。

档案馆聘请了三个主要策略来捕捉到未来历史学家可能对的大部分可能是重要的。 Bailey Worln' t猜测他们设法的网站百分比 - "我看起来像个白痴,"他说 - 因为没有人真的可以猜出互联网的大小或规模。 (不要在你的头上到达那里,如果你能避免它。你甚至如何测量:通过数据大小?对象的数量?不同的网址的数量?)"没有使用"没有使用焦虑在您的控制之外'他说。

档案家首先考虑整个网络并寻求最重要的分数。他们捕获整个互联网的浅轮廓(每个网址和相关的主页,即可访问的每个URL和相关的主页),然后他们将深入进入尽可能多的页面,以获得前500万左右的网站或如此访问过的网站。这会产生一个相当平的鸟类和#39;互联网的眼睛视图。

为了获得更多的三维图片,他们寻求其他重要的信号,从新闻聚合到全民领域的整体(如古巴,法国,索马里等)当存在重要的事件时,甚至是每一个YouTube URL在Twitter上共享(他们可以捕获所有YouTube,但至少他们可以捕捉到以为重要的人在其他地方分享那些重要的视频)。

最后,其他机构可以使用互联网档案来构建自己的存档服务,通常在人权或生物工程等主题上创建专门的集合。然后将所有这些集合复制回Layback计算机,这是Web Archive的可公开访问版本。

在国会图书馆的网络归档团队领导的Abbie Trotke,一方面参与了这项工作超过20年。国会图书馆'自己的存档是与Bailey合作建造的特殊收藏品之一,它包含大约2.4岁的Petabytes和超过180亿个物品,从美国政府网站到最具文化重要的模因。佛罗特为她的生命提供了为国会图书馆保留互联网。

工作本身在技术上是一个巨大的任务,但它归结为一个简单的目标。 "我们'重新尝试捕获随时间的变化,"她说。

国会图书馆于2014年开始捕获网站,主要关注在可以在捕获之前可能被取消的政治收藏和风险网站和收集。 "我们始终有点担心,我们是否收集我们需要收集的一切?有什么东西我们' re缺少?"琥珀Paranick是国会图书馆之一的琥珀Paranick'参考图书馆员。但这个问题是不同的,因为它的数字:"'始终是图书管理员的困境。"

单独的Web存档约为45个petabytes - 4,500 terabytes - 而互联网档案本身大约大小(该组有其他集合,像教育电影,音乐甚至长的软件程序一样)。

它&#39是不可能在该规模上概念化实际使用的,可访问的数据,更不用说使它是可搜索的。因此,虽然存档有一些项目使用机器学习来识别一些图像,但像马的图片一样,Bailey喜欢思考已经出现的奇怪,难以想象的应用程序以及他们将来的更加宏伟的应用程序。

例如,回路机已经发展起来在专利诉讼中发挥重要作用。人们对专利所有权的战斗寻找什么' s被叫"现有技术,"这表明谁可能首先想到了产品。在一个案例中,当两个人争议时,他们首先为Hubcap RIM创建了特定设计时,可以通过找到已经在Warback机器存档的旧网站来证明自己的所有权。

还有其他用例:Mozilla的人们建立开源翻译工具也发现了互联网档案和#39;多种语言的网站集合,很有用来培训他们的翻译工具。有很少的印刷或数字化材料,具有两种语言的大量相同的文本,但许多官方网站都这样做,这可以帮助建立"小语言的质量翻译工具,"根据Bailey的说法,如英语 - 斯瓦希里语翻译。

当我问卡勒他如何考虑今天为历史学家远离历史学家保存时,他增长了哲学。他在缩放聊天中发送了链接,首先是他写的一本书的Google Doc,然后是一个国家,然后是一篇他在2015年写的长篇博客文章。当我们挂断电话时,我拿着堆积材料,大多数是密集的,它的大部分时间都有。

他告诉我,在这个历史上的所有历史记录。 "我们现在能够做的是什么是了解你的个人历史。我们能够达到历史记录的特殊性。我认为它将真正参与100年'时间。你会给你曾祖母的视频是什么?它只是给你这个镇流器,它会给你一个锚定,我们现在缺乏,"他说。 "我们'生活在永久存在,这是危险的。"卡勒认为我们的历史使我们更好的人,并给了我们更好的知识。但历史不是在经济上有利可图的。

社交媒体公司希望我们专注于明天,而不是我们一年前的帖子。出版商也做到了。 Harpercollins正在起诉档案,以防止它在其数字图书馆中分享印刷书籍,争论公开分享出版书籍是一种大规模违反版权法的行为。虽然起初似乎是奇怪的,出版商会关心印刷的书籍,因为这些公司,他们的企业取决于人们购买新事物的公司,归档,以便人们可以关注过去并不是他们的财务利益。

"他们通过每种法律和政治意味着抹去过去,他们可以,"卡勒说。

卡勒说,如果可以防止互联网的北方人,互联网档案可以改变我们了解更多历史时刻的方式。历史书籍和历史学家仅限于一些文本作品,主要是受到强大的人民的时间。通过互联网档案,日常历史将突然突然访问我们的时间。想象一下,如果我们每个人都可以回顾我们的曾祖母,并知道他们在15岁时所说或想到的,然后是25岁和50岁。档案将允许这一点。

档案还可以强迫历史学家成为专业数据矿工。 "未来将有很多这些比较研究,每个总统在30年内的每次推文。纵向分析可以用薄卵形的数据,&#34完成; Bailey说。研究问题本身可能不会变化很大;它们只会延长更大的时间表和更大的比较。

每天超过100万人使用互联网档案。其中大多数都可以寻找WATHBACK机器,但人们也在档案馆中阅读数字化书籍和#39; S开放式图书馆的数字化书籍,或者从公共领域电影的庞大档案中观看电影。

"我们喜欢梦想家,那些通过他们的想法来到这个新媒体的人。无论发生什么,梦想都很重要,而#34;卡勒说。尽管他的工作和公开互联网价值观存在存在的威胁,但卡勒希望充满希望。

"那些想要垄断互联网的人是非常充分资助的。我们需要沟通和提供开放的价值。我乐观我们可以做到吗?我说是。但是,它基于一个想要它发生的巨大的人,'他说。

"有些人认为,如果你付钱,人们只会做事,其他人只是羊," 卡勒说。 "没有那是真的。 他们可能对同样的事情感兴趣,但是当我们看看人们在互联网上产生的东西,如果它'关于他们关心的东西......他们在纳秒中证明你错了。&#34 ;