基于AI的作家识别死海滚动的未知抄写员

2021-04-28 11:21:19

Warning: Can only detect less than 5000 characters

滚动量的长度为7.34米,平均高度为26厘米,包含54列希伯来文本。在塔27底部的三线谱柱形式之间存在柱27和28之间的治疗学,并且在柱27和28之间也存在片材的变化,即在该点处缝合两个薄片。在滚动的下半部分滚动,希伯来语的拼写和形态不同,空格留空。脚本类型在字段中被称为HasMonaean,写作风格正式,稿件传统上日期为2世纪后期BCE。

在死海斯科尔的早期研究中,学者在1QISA A [22,23]的整个稿件中感受到了几乎统一的写作风格,但也承认不同的划线可以分享类似的写作风格[24,25],但这些初始观察结果并不多。虽然只有[5,26]表示,两个划线都是负责复制一半稿件,第1-27栏和第28-54栏,大多数学者争论或假设整个稿件被一个抄写员复制,一个划线其他同时和较多的干预措施,划线[27-29],并且应该另外解释两半之间的正交和形态学差异,例如,通过假设使用两个单独和异种vorlagen或者vorlage下半场是损坏的稿件[30-38]。

然而,没有人为1QISA A中的作者身份或差异提供了详细的古典论证,除了[28]谁提供了一个主要抄写员争论的古典图。但是[28]中的宫图表是至少有三种原因来证明这一点(关于S1在S1文件中的S1假设的Scribal ItioSyncasies中提供了有关假想的扰乱特质的其他细节)。通过电子制作,目前尚不清楚在何处,以及究竟是何处。目前尚不清楚“字母的典型形式”是典型的,因为它是最常见的形式,或者是因为它是IDIographic,理解为提供个性证据的图形形式的微妙变化[17]。最后,至关重要的问题是处理大量数据以生成图表。特定希伯来字母的实例数量可能在1QISA A中的数千个中运行。

这里,模式识别和人工智能技术可以通过处理大量数据来帮助研究人员,并通过产生人类不可能执行的定量分析。多年来,在图案识别领域内,已经提出了专用的特征提取技术并在识别作家中研究。通过提取特定的编写器的有用的定量数据,这些技术用于手写文档以产生特征向量。在我们早期的研究之一中,我们在有限数量的滚动上测试了基于纹理和图形的特征​​来识别Scribes [39]。基于纹理的功能使用手写字符的倾斜和曲率的统计信息。基于Graineme的特征提取字符本地结构,然后将它们映射到一个共同的空间中,类似于文本分析中所谓的单词方法[40]。

我们已经表明,提取铰链,在手写的微型器上操作的纹理特征,可用于识别作者[41]。在生产性格形状的过程中,作家潜意识地减慢并加快手动运动。例如,角色内的弯曲是指示在发生速度的位置,并且弯曲越尖锐的手动移动的减速。铰链在静态空间和动态时间之间使用这种直观的信息来产生特征向量。

类似于纹理特征,“原型字符形状”(原型字符形状)也可用于作者识别[42]。单名可以从完整字符或字符的部分获得。我们已经使用完整的字符合作,并使用它们来创建一个Dead Sea滚动字符的码本,用于样式开发分析[43]。

定量证据是额外的证据,可以刺激众所周知,以促进它们的定性分析[21,44]。模式识别和人工智能技术不会判断识别,而是提供统计概率,这些概率可以帮助人类专家理解,并在不同可能性的可能性之间决定。

Warning: Can only detect less than 5000 characters

在这项研究中,我们使用了1 QISA A的数字图像,通过Brill Publishers [50]。 BRILL中有2463个图像在BRILL滚动收集,随着600乘600像素的各种分辨率为2800,达到3400像素,大约。对于1QISA A,除了列16和46之外,我们具有列1-54的图像(而是在Brill Collection中列出两次的列15和47;在S2文件的S2图像信息中见表1。扫描号和它们相应的列号列表附加在S1文件中的S2图像信息中。对于二级分析,我们还使用了死海滚动的最新数字化多光谱图像,由以色列古物权威(IAA)向我们提供;这些图像也可以在他们的leon levy死海滚动数字图书馆网站[51]。虽然IAA图像不包含任何新数字化版本的1QISA A,但我们使用了这个庞大的集合来提取主导字符形状并生成自组织功能映射(请参阅第2.3节)。

1QISA A通过多种预处理措施来适用于基于模式识别的技术。我们在预处理的第一步是图像二值化技术。为了防止基于无关背景图案的文本列图像的任何分类,施加了一种彻底的二值化技术(Binet),保持原始墨水迹线完整[49]。在执行二值化之后,通过移除部分出现在目标列的图像上的相邻列进一步清洁图像。最后,以限制性的方式执行很少有次要仿射变换和拉伸校正。这些校正也是针对对准文本线由于皮革书写表面的劣化而导致扭曲的文本(参见图2)。可以在S3.1预处理中找到图像准备的更详细说明:S1文件中的二值化和对准校正。

最后,为了在作者内融入逼真的变化并检查系统的稳健性,我们通过应用随机弹性'橡胶片的变换来向数据添加噪声。转换产生增强的变形数据,我们在同一系统中使用,以检查和比较原始无编织数据的结果的变化(有关详细信息,请参阅S3.1.1图像变形:在S1文件中为数据添加随机噪声)。

为了代表1QISA A的手写,我们在二金属化清洁图像上应用了特征提取方法,将手写风格转化为特征向量。数据直接涉及滚动中的墨水迹线的有形证据,抄写措施划线。作为写作是一种涉及手和臂的肌肉运动的过程,它由物理规则决定,因此可以量化。

我们的特征提取方法将墨迹迹线与多个级别的手中相关联。整个字符形状的同位级别更容易与观众沟通,而纹理特征(例如铰链)的微观级别远离传统的可视化,以显示整个字符形状的古怪图表的形式。尽管如此,所有这些水平都与古代血罩手的写作活动同样直接相关,这些水杂志的手在卷轴上投入墨水。

关于1QISA A是否存在不同的划线或一个抄写员的问题被传达给执行初级分析,但没有关于滚动研究中关于这个问题的技术的进一步信息(参见第1节)。

步骤1.我们使用了三种类型的特征提取技术(详细说明,可以在S3.1.2特征提取中找到:纹理级别,S3.1.3功能提取:使用神经网络的称级级别,S3.1.4在S1中的邻接功能文件):

步骤2.提取后 ......