TLDR:科学文献的极端总结

2020-11-28 06:54:10

下载PDF摘要:我们介绍TLDR生成,这是一种极端总结的新形式,是科学论文。 TLDR生成涉及高源压缩,并且需要专家背景知识和对复杂域特定语言的理解。为了促进对此任务的研究,我们引入了SciTLDR,这是一个新的多目标数据集,包含超过3.2K论文的5.4K TLDR。 SciTLDR既包含作者编写的TLDR,又包含专家生成的TLDR,其中使用新颖的注释协议收集后者,该协议可产生高质量的摘要,同时最大程度地减少注释负担。我们提出CATTS,这是一种用于生成TLDR的简单而有效的学习策略,该TLDR利用标题作为辅助培训信号。 CATTS在自动度量和人工评估的基础上都改进了强大的基准。数据和代码可通过此https URL公开获得。

来自:伊莎贝尔·卡霍拉[查看电子邮件] [v1]星期四,2020年4月30日17:56:18 UTC(3,615 KB)[v2]星期六,2020年5月2日09:09:24 UTC(4,412 KB)[v3]星期四,8 2020年10月22:41:44 UTC(4,176 KB)

关于arXivLabs arXivLabs是一个允许合作者直接在我们的网站上开发和共享新的arXiv功能的框架。

与arXivLabs合作的个人和组织都已经接受并接受了我们的开放,社区,卓越和用户数据隐私价值。 arXiv致力于这些价值观,并且仅与遵守这些价值观的合作伙伴合作。

有一个可以为arXiv社区增加价值的项目的想法吗?了解有关arXivLabs以及如何参与的更多信息。

书目工具代码推荐