下载PDF摘要:基于变压器的模型已经在NLP的许多领域推动了最先进的技术,但我们对它们成功背后的原因的了解仍然有限。这是对流行的伯特模型的150多项研究的首次调查。我们将回顾关于BERT如何工作的知识现状,它学习了什么类型的信息,它是如何表示的,对它的约束目标和体系结构的常见修改,过度参数化问题和压缩方法。然后,我们勾勒出未来研究的方向。
出发地:Olga Kovaleva[查看电子邮件][v1]清华,2020年2月27日18:46:42 UTC(923 KB)[v2]星期一,2020年11月2日22:01:57 UTC(1,394KB)[v3]星期一,2020 11月9日15:33:50 UTC(1,394KB)。
ArXivLabs是一个框架,允许合作者直接在我们的网站上开发和分享新的arxiv功能。
与arxivLabs合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。Arxiv致力于这些价值观,只与坚持这些价值观的合作伙伴合作。
你有一个为arxiv;社区增加价值的项目的想法吗?了解有关arXivLabs的更多信息以及如何参与其中。
书目工具代码推荐器