近30年来,arxiv通过提供对学术文章的开放访问来服务于公众和研究社区,从物理学的广泛分支到计算机科学的许多分支学科,再到介于两者之间的一切,包括数学、统计学、电气工程、定量生物学和经济学。
Arxiv研究论文的绝对数量既是有益的,也是具有挑战性的。无论是各自领域的研究生,还是深入研究邻近领域的老牌教授,还是为公共利益寻找宏观洞察力的研究人员,这些丰富的信息语料库都提供了重要的,但有时是压倒性的深度。
为了使arxiv更容易访问,我们在Kaggle上提供了一条通往机器可读的arxiv数据集的免费、开放的管道:170万篇文章的存储库,具有文章标题、作者、类别、摘要、全文PDF等相关功能。
“在Kaggle上拥有整个arxiv语料库极大地提高了arxiv文章的潜力,”arxiv执行董事埃莱奥诺拉·普雷萨尼(Eleonora Presani)说。通过提供关于Kaggle的数据集,我们超越了人类通过阅读所有这些文章所能学到的东西,我们以机器可读的格式向公众提供了arxiv背后的数据和信息。“。
Kaggle是数据科学家和机器学习工程师寻找有趣的数据集、公共笔记本和比赛的目的地。研究人员可以利用Kaggle丰富的数据探索工具,轻松地与他人共享相关脚本和输出。
“arxiv不仅仅是一个文章仓库,它还是一个知识共享的平台,”普雷萨尼说。他说:“这需要我们在如何呈现和解释我们提供的知识方面不断创新。Kaggle用户可以帮助推动这一创新的极限,它可以成为我们社区合作的新渠道。“。
Arxiv科学总监斯坦恩·西古尔德松(Steinn Sigurdsson)表示:“对于大型数据集,人们通常预计可能会忽视发现、联系、创新工具或视角,这可能会带来额外的洞察力,不仅是在最初的主题上,而且是在其他研究领域,使更多的发现和创新成为可能,”arxiv科学总监斯坦恩·西古尔德松(Steinn Sigurdsson)说。
我们希望能够支持新的用例,这些用例可以导致探索更丰富的机器学习技术,这些技术将多模态功能结合到趋势分析、论文推荐引擎、类别预测、共引网络、知识图构建和语义搜索界面等应用程序中。
这种建立在特定语料库之上的语义搜索应用程序的一个例子是谷歌的新冠肺炎研究浏览器,这是一个帮助研究人员钻研CORD-19数据集的工具-一个包含19万多篇关于新冠肺炎的科学文章的存储库。在这样的数据集上构建的接口利用高级NLU技术来理解用户在查询背后的意图。最终,这可以通过将相关数据和证据浮出水面来解决复杂的科学问题,从而使研究更有效率。我们希望机器可读的arxiv数据集的发布将激励在这个新的语料库上创建类似的NLU工具。
谷歌高级研究科学家亚历克斯·阿莱米(Alex Alemi)也一直在使用arxiv追求ML更令人兴奋的应用。正如论文中所描述的,在使用arxiv作为数据集方面,Alex和他的同事们试图推动arxiv成为大规模、多关系任务的基准,例如使用图形神经网络。“看到研究界接受具有如此多现实世界实用性的丰富、多方面的数据集的挑战,以及这将带来的新问题,我感到很兴奋,”Alex说。
该数据集现已在Kaggle上提供,并将每周更新一次。请将您的反馈发送给我们,并继续关注更多更新!
特别感谢arxiv背后的著名物理学家和远见卓识的物理学家Paul Ginsparg和登月工厂X的杰克·希达里,他们帮助实现了这一合作。
如果没有许多人的帮助,这个数据集是不可能的。非常感谢(按照姓氏的字母顺序):亚历克斯·阿莱米(Alex Alemi)、蒂莫·博兹索里克(Timo Bozsolik)、艾莉森·弗罗姆(Alison Fromme)、林佩珍(Peijen Lin)、布莱恩·马尔赞(Brian Maltzan)、埃莱奥诺拉·普雷萨尼(Eleonora Presani