谷歌“BigBird”在长上下文NLP任务上实现SOTA性能

2020-08-04 03:43:50

谷歌的BERT和其他基于转换器的自然语言处理(NLP)模型的惊人成功并不是偶然的。在所有SOTA表现的背后,是变形金刚创新的自我关注机制,它使网络能够从整个文本序列中捕获上下文信息。然而,自我注意的内存和计算需求随着序列长度呈二次曲线增长,这使得使用基于变压器的模型来处理长序列非常昂贵。为了减轻变压器的二次依赖,谷歌研究的一组研究人员最近提出了一种名为BigBird的新的稀疏注意力机制。在他们的论文“大鸟:较长序列的变形金刚”中,该团队证明,尽管是一种稀疏的注意力机制,BigBird保留了所有已知的二次型全注意力模型的理论特性。在实验中,BigBird被证明可以显著提高长上下文NLP任务的性能,在问题回答和摘要中产生SOTA结果。

研究人员设计了BigBird,以满足全变压器的所有已知理论特性,在模型中构建了三个主要组件:

对于每个查询QI,是每个查询将关注的R个随机密钥的集合。

一组本地邻居,使得每个节点都关注其本地结构。

这些创新使BigBird能够处理比以前使用标准硬件长达8倍的序列。

此外,受BigBird处理长上下文的能力的启发,该团队引入了一种基于注意力的模型的新应用,用于提取基因组序列(如DNA)的上下文表示。在实验中,BigBird被证明在处理较长的输入序列方面是有益的,并在下游任务(如启动子区域和染色质轮廓预测)中提供了更好的性能。

这份报告让我们看到了中国政府和企业主在与新冠肺炎的斗争中是如何利用人工智能技术的。它也可以在亚马逊Kindle上买到。

我们知道你不想错过任何故事。订阅我们广受欢迎的、同步的全球AI周刊,获取每周的AI更新。