具有线性注意的快速自回归变压器

2020-07-04 00:54:00

下载PDF摘要:变形金刚在几个任务中取得了卓越的性能,但由于它们的二次方复杂性,相对于输入的长度,它们对于非常长的序列来说是令人望而却步的缓慢。为了克服这一局限性,我们将自我注意表示为核特征映射的线性点积,并利用矩阵乘积的结合性将复杂度从$\Mathcal{O}\Left(N^2\right)$降低到$\Mathcal{O}\Left(N\Right)$,其中$N$是序列长度。我们表明,这个公式允许迭代实现,大大加快了自回归变形器的速度,并揭示了它们与递归神经网络的关系。我们的线性变压器实现了与香草变压器类似的性能,在超长序列的自回归预测上,它们的速度高达4000倍。