考古学正在走向数字化,以利用大数据的力量

2021-01-03 07:13:50

很少有时间来写出我们遇到的每一个很酷的科学故事。因此,今年,我们将再次举办特殊的圣诞节十二天系列文章,重点介绍一个科学故事,该故事从2020年的裂缝中消失,每天从12月25日到1月5日。今天:考古学家正在使用无人机和卫星图像等工具可用于构建大型在线数据集,并着眼于利用大数据的力量进行研究。

考古学终于赶上了所谓的“数字人文科学”。正如《野外考古学杂志》(Journal of Field Archaeology)2月特别版所证明的那样,它完全致力于讨论大规模数据集和相关分析在改变领域方面的多种方式。该版本中包含的论文最初是在美国考古学会2019年会议的特别会议上发表的。数据集可能比通常与大数据关联的数据集要小一些,但是这种新的“数字数据凝视”然而,它对考古研究产生了深远的影响。

正如我们之前所报道的那样,人文科学领域内的存档越来越多,而学者们已将各种分析工具应用于这些丰富的数据集,例如Google N-gram,Bookworm和WordNet。仔细阅读某些文献资料(人文学科中学者的传统方法),可以得出深刻而狭窄的观点。定量计算分析可以将近距离阅读与更广泛,更笼统的鸟瞰方法结合起来,这种方法可以揭示隐藏的模式或趋势,而这些模式或趋势可能会被忽视。数据档案库和数字工具的性质在考古学上略有不同,但是概念是相同的:将传统的“ pick and trowel”结合起来;在地面上进行详细的野外工作,可以一览无余地一览无余,以期收集隐藏的见解。

由范德比尔特大学和布朗大学的人类学家史蒂芬·韦恩克和帕克·范·瓦尔肯伯格分别撰写的一篇论文特别证明了这种方法的强大作用。他们与共同的合著者,日本国家民族学博物馆的民族历史学家佐藤晃(Akira Saito)合作,开发了两个在线数据库,并用它们为1570年代西班牙征服者被迫重新安置印加帝国带来了新的视角。

安第斯地区链接公开地名词典(LOGAR)旨在收集研究安第斯地区的人们感兴趣的有关地点的主要来源信息。它包括从全面的重新安置记录中收集的信息,该记录被称为“塔萨德拉维斯塔塔将军”。由秘鲁任命的西班牙总督维持。安第斯文化,历史和考古学的地理空间平台(GeoPACHA)是LOGAR的补充。它是一个基于浏览器的开源平台,该平台使用户能够通过训练有素的团队网络,系统地调查卫星和历史航空影像,从而发现并记录安第斯山脉的考古遗址。

这三人能够为大规模重新安置期间建造的计划中的殖民城镇(红褐色)创建一个综合底图。这帮助他们发现了这些紫丁香酮的分布中一种有趣的模式:它似乎遵循了印加帝国基础设施(即道路系统)的极为相似的分布。具体来说,他们注意到库斯科(Cuzco)和利马(Lima)较大地区的人口集群相似。 "在秘鲁居住了大约40年之后,西班牙人试图弄清楚如何统治这片广阔的土地," VanValkenburgh告诉Ars。 "他们直接模仿了印加人的所作所为。重新安置是在印加模式下重新构想西班牙治理的核心举措之一。

这种对使用大数据数字工具的新强调并不意味着考古学家正在the刀。但是,当涉及到传统的现场工作时。 Wernke和VanValkenburgh与Ars讨论了在两种方法之间保持至关重要的平衡的必要性,并阐述了利用规模力量的潜在优势和劣势。

Ars Technica:在整合这些技术方面,考古学一直落后于人文科学。这是为什么?

史蒂芬·韦恩克(Steven Wernke):考古学家通常将现场收集的数据视为黄金标准,而我们倾向于严格遵守该标准。我们倾向于将人们视为考古学家的主要观察工具。但是我们试图做的事情绝不是以任何方式取代它,也不是说我们正在做的事在某种程度上更好。我们正在尝试使用这些新工具来补充这种方法,以将旧图像转化为可以在线存储和系统搜索的内容。

与此相关的另一个方面是记录考古遗产,而考古遗产正以越来越快的速度消失。其中一些是由气候变化驱动的。在秘鲁,我们通过加剧厄尔尼诺事件非常具体地看到了这一点,该事件引发了秘鲁北海岸遭到破坏的各种洪水。抢劫是另一个主要问题,实际上是对源自北半球古物市场的市场力量的反应。秘鲁的遗址遍布尸体,因为发现了一个公墓,抢劫者进入那里试图获取金属和纺织品。

帕克·范瓦尔肯伯格(Parker VanValkenburgh):其中很大一部分是关于考古数据本身的性质。遗传数据具有这种原始模块性,因此可以将其简化为一系列特定变量。如果您是考古学家,并且想研究古代世界中城市的发展,那么人类文化导致的考古数据会存在差异,这不是模块化的。这意味着人们很难就不同种类的分类之间的断点达成一致。很难将数据收集和数据集扩大到可以进行这些类型的大数据分析的程度。因此很自然地,首先将大数据分析应用于不是专门为考古分析而专门收集的数据集中,例如卫星数据。

Ars Technica:精细调整的细节与所谓的``天空之眼''之间不可避免地存在张力。系统化数字化方法提供的视角。您如何找到一个平衡点?

韦恩克(Wernke):简而言之,您可以通过两者同时找到它。我们都是野外考古学家。我要说的90%是在野外进行的调查和发掘。我在安第斯山脉的同一山谷工作了25年。这并不稀奇。考古学家倾向于专门从事地理研究,他们往往会熟悉地域。我为此大力提倡。我们非常清楚这样一个事实,即您从无处不在的地方一次观察地球表面而得到的这种神似的观点带来了很多忽略所有局部变化和所有复杂性的风险基于我们自己已记录在案的理由。但是,我们现在还知道,如果我们只是在地面上,就会错过过去对人类起作用的几级力量,而现在却对我们起作用。我们正在尝试将这些东西链接在一起。我们不会试图取代另一个。

VanValkenburgh:考古学是一个领域,至少在它的现代版本中,它确实擅长讲述这些激烈的小故事。它在某种程度上是微观历史的。当您对过去发生的事情有如此广泛的概括,并且通过将其应用到真正特定的位置来有效地使归纳理论负责时,这很有用。但是那个理论从何而来?目前,我们所掌握的只是一些随机的研究。以印加帝国为例。我们对印加帝国的了解是一些随机研究的总和,这些研究总体上告诉了我们关于印加帝国的运作方式以及很多关于局部变异的知识。但是,尚未对系统进行抽样,以了解整个系统。

大数据通常被认为是对假设和演绎方法的根本替代。但是在考古学中,它为我们提供了一个更好的通用模型,以检验或配合我们正在做的真正本地化的事情。这样一来,我们可以更好地将微观历史研究的类型背景化,我们都认为在很长一段时间内,微观历史研究将继续成为考古学的主要内容。

Ars Technica:您在印加帝国的工作,尤其是重新安置工作提供了有用的案例研究。让我们谈谈了解历史​​这一点的挑战以及大数据如何提供帮助。

韦恩克:在16世纪的鼎盛时期,印加帝国是西班牙入侵美洲之前世界上最大的帝国。哥伦比亚大学印加人杰出学者特伦斯·达·阿尔特罗(Terence D&Altroy)写道,如果印加帝国在旧世界,它将从北部的圣彼得堡延伸到南部的开罗。 "这是巨大的。从当今世界来看,这是一个大数据挑战,涵盖了当今超过五个现代共和国,数以百万计的人,数十个民族语言群体和最[地理]多样化的地区之一,到世界上最潮湿的雨林,以及当您沿着安第斯山脉攀登而另一侧攀登时,介于两者之间的所有事物。

传统叙事是西班牙的征服,首字母为C。我们试图在多个层面上使该叙事复杂化。大规模的重新安置计划是在1570年代入侵后的第二代发生的,大约是在弗朗西斯科·皮萨罗(Francisco Pizarro)征服印加人之后的40年。您可以轻松地使[重新安置]适应征服的叙述,因为实际上一夜之间有超过100万人流离失所,遍及整个副官邸中建造的1000多个城镇。是的,这是极具破坏性的,是一种统治形式,但在印加行政基础设施和与西班牙管理人员的当地安排方面,它也深深地取决于以前发生的事情。纵观全球,我们可以开始看到其中的一个方面:它们如何依赖以前的印加公路系统。因此,西班牙人说的是一种征服形式,在某种意义上是印加帝国主义的来世,是安第斯帝国主义形式的再造。

VanValkenburgh:西班牙的入侵实际上是一种感染。来自旧世界的第一批入侵者到达安第斯山脉时出现了新病原体。然后,您将印加帝国视为一个身体,并将道路系统视为一个循环系统。西班牙人入侵并殖民了这个现存的东西,并将其接管。人们总是说,这200人的集团如何占领了一个庞大的帝国?他们接管了病毒(接管)宿主的方式,并且彼此对抗。印加人征服了一群并不特别喜欢他们的人,西班牙人利用了这些竞争。但是,在西班牙入侵之后,他们四处移动货物,部队等的方式是相同的道路系统。

Ars Technica:如何确保数据集的质量,特别是在考古学等经常处理不完善或不完整信息的领域中?

韦恩克:我们非常谨慎地在内部将GeoPACHA构建为同行评审类型的系统。它是众包的,因为有很多人正在研究它,但不仅仅是开放的众包。我们有研究团队,他们都是各自领域的专家。他们带着想要解决的具体研究问题来到该项目。他们正在与学生们一起工作,而学生们则直接与他们一起作为他们项目的区域编辑。他们查看了他们团队的站点标识,然后,我们作为总编辑对这些内容进行了最终审查,然后再提交给数据库。我们还有一个用于跟踪覆盖范围的系统,该系统是覆盖这些调查区域的基于单元格的网格。用户将标记为已调查的网格单元,区域编辑和一般编辑也会对其进行检查,以确保没有遗漏任何内容,并且我们没有假阴性。

VanValkenburgh:我们俩都在考虑的事情之一是,如果我们将规模扩大到目前的工作范围之外,这种同行评审模式能否奏效?维基百科已经找到了自己的方法,可以用相对较少的一群真正敬业的人来产生很多质量。从某些方面来说,这就是我们所设想的。但是,有许多不同的尝试试图利用众包的力量来实现考古现场的启发,而且我认为初步结果表明,在某些情况下,很难识别考古现场和卫星图像案件。您需要解释卫星图像的那种视觉需要大量的培训。这个问题[还扩展到]文本数据和所有其他已成为考古数据科学重要组成部分的数据。

Ars Technica:您想在接下来的10年中看到这个领域吗?您如何看待这一切?

VanValkenburgh:合作和道德内省是我认为最重要的两件事。就数据聚合而言,目前有两个平行的轨道。我们已经获得了诸如开放上下文(Open Context)这样的倡议,该倡议是考古学开放数据的先驱,另外还有许多其他倡议,包括数字考古记录(Digital Archaeological Record),以创建庞大的数据库,使考古学家可以提出有关比较的系统性问题。我希望看到该领域的文化转变,人们正试图将其数据存储到这样的存储库中,从而使我们能够进行更系统的比较。

还有一个并行开发,人们可以出去并收集大型数据集,最终目标是大规模模块化。激光雷达就是一个很好的例子。那是另一种大数据。但是,我希望在LiDAR中以及在这两个平行磁道上有一些数据共享的标准。在社区中,我们需要认真进行有关进行大考古学的道德规范和最佳实践的对话。大规模工作提出了有关隐私和数据主权的问题,这与我们在地面上工作的考古学家所面临的问题无异。但是,在当地社区工作的考古学家对人际关系的关注程度很高,而当您在空中注视时,不一定会得到这种关系。因此,我认为我们正在进入一个更加沉思的考古学阶段。