DeepMind说句法偏见“帮助伯特做得更好”

2020-05-30 05:50:51

NLP的研究人员已经知道,Google非常流行的BERT(Transformers的双向编码器表示)语言模型,基于大量数据进行训练,即使在不了解分层语法结构的情况下也能很好地执行句法语法判断任务。但它还能做得更好吗?这就是DeepMind和加州大学伯克利分校的研究人员在一项新的研究中开始发现的,该研究增加了句法偏见,以确定它们是否可以帮助伯特更好地理解,以及在哪里可以帮助伯特实现更好的理解。

该方法受到知识提炼(KD)过程的启发,该过程使用递归神经网络语法(RNNG)来提高可扩展语言模型(LMS)的句法能力。由于RNNG是从左到右预测单词的分层句法LM,因此将它们插入到在双向上下文中预测单词的BERT中是具有挑战性的。因此,研究人员创建了一种新的预训练设置,该设置提取了RNNG在上下文中的词的边缘分布,但仍然完全兼容,并保持BERT的其余部分不变,以保持其可扩展性。

在均匀分布的双向背景下提取RNNG的近似边缘(“UF-KD”)。

提取RNNG在双向背景下的近似边缘,并采用一元分布(“UG-KD”)。

研究人员在六个不同的结构化预测任务上评估了他们的结构提取的BERT,包括句法、语义和共指解析,以及流行的GLUE(通用语言理解评估)基准。

测试结果表明,所有四个结构提取的BERT模型在相对错误率降低2-21%的同时,性能都一致优于标准的BERT基线。

研究结果表明,句法归纳偏向对包括非句法预测任务在内的各种结构化预测任务都是有益的,而且这些偏向还可以提高下游任务的微调样本效率。

研究人员提出,未来的潜在研究可以着眼于设计易于扩展的模型,将更强的结构性偏见概念整合在一起。