报纸导航器数据集：1600万页历史报纸

2020-05-09 16:40:32

下载PDF摘要：编年史美国是国家数字报纸计划的一个产品，该计划是国会图书馆和国家人文基金会的合作伙伴关系，旨在将历史报纸数字化。到目前为止，超过1600万页的美国历史报纸已经数字化，以记录美国，并配有高分辨率图像和机器可读的METS/ALTO OCR。记录美国用户相当感兴趣的是一个语义化的语料库，其中包括提取的视觉内容和标题。为了实现这一点，我们引入了一个视觉内容识别模型，该模型针对照片、插图、地图、漫画和社论漫画的包围框注释进行了培训，这些注释是作为国会图书馆的Beyond Words众包计划的一部分收集的，并增加了其他注释，包括标题和广告的注释。我们描述了我们的管道，它利用这个深入的模型来提取7类视觉内容：标题、照片、插图、地图、漫画、社论漫画和广告，其中包括来自METS/ALTO OCR的字幕等文本内容，以及用于快速图像相似性查询的图像嵌入。我们报告了从编年史上的美国语料库中运行管道的1630万页的结果，并描述了由此产生的报纸导航器数据集，这是有史以来从历史报纸中提取的视觉内容的最大数据集。新的报纸导航器数据集、优化的可视内容识别模型和所有源代码都放在公共领域中，以便不受限制地重复使用。

https://arxiv.org/abs/2005.01583