bigbird

2020-8-4 3:43

谷歌的BERT和其他基于转换器的自然语言处理(NLP)模型的惊人成功并不是偶然的。在所有SOTA表现的背后，是变形金刚创新的自我关注机制，它使网络能够从整个文本序列中捕获上下文信息。然而，自我注意的内存和计算需求随着序列长度呈二次曲线增长，这使得使用基于变压器的模型来处理长序列非常昂贵。为了减轻变压器的二次依赖，谷歌......