bigbird

2020-8-4 3:43
谷歌的BERT和其他基于转换器的自然语言处理(NLP)模型的惊人成功并不是偶然的。在所有SOTA表现的背后,是变形金刚创新的自我关注机制,它使网络能够从整个文本序列中捕获上下文信息。然而,自我注意的内存和计算需求随着序列长度呈二次曲线增长,这使得使用基于变压器的模型来处理长序列非常昂贵。为了减轻变压器的二次依赖,谷歌......