用傅里叶变换取代伯特自我关注:精度为92%,更快7倍

2021-05-15 03:19:38

自2017年介绍以来,变压器架构已占据自然语言处理(NLP)字段。变压器应用程序的唯一限制是其关键组件的巨大计算开销 - 一种自我关注机制,其在序列长度方面具有二次复杂性。 Google团队的新研究提出使用简单的线性变换更换自我关注子层,即“混合”输入令牌,以显着加快变压器编码器,精度具有有限的成本。更令人惊讶的是,团队发现用标准替换自我关注子层,未分辨的傅里叶变换达到粘合力基准的伯特精度的92%,训练时间速度快7倍,而TPU上的两倍于快速。

变形金刚的自我关注机制使得输入的输入可以用更高阶单元表示,以灵活地以自然语言捕获不同的句法和语义关系。研究人员长期以来将相关的高复杂性和内存足迹视为变形金刚令人印象深刻的绩效的不可避免的权衡。但在论文FNET中:将令牌与傅里叶变换混合,谷歌团队用FNET挑战这一思路,这是一种小说速度,内存足迹和准确性之间存在出色的平衡。

FNET是具有多个图层的层标准化Reset架构,每个层由傅里叶混合子层组成,然后是馈电子层。该团队用傅里叶变换子层替换每个变压器编码器层的自我关注子层。它们沿序列尺寸和隐藏的尺寸施加1D傅里叶变换。结果是一个复杂的数字,可以作为实地数乘以虚部的实数(数学数字“i”,这使得解决没有实数解的方程式)。仅保留结果的实数,消除了修改(非线性)馈电子层或输出层以处理复数的需要。该团队决定用傅立叶变换来取代自我关注 - 基于19世纪的法国数学家Joseph Fourier的技术,用于将时间变换为频率的函数 - 因为它们发现了混合令牌的特别有效的机制,使其能够提供馈线子层充分访问所有令牌。在他们的评估中,团队比较了多种型号,包括BERT基础,F形式编码器(用傅立叶子层替换每个自我关注子层),一个线性编码器(用线性子层替换每个自我关注子层),一个随机编码器(用恒定随机矩阵替换每个自我关注子层)和仅馈送前进的编码器(从变压器层上删除自我注意子层)。

通过用标准的普通分类转移学习设置替换标准的注意子宫内置的傅立叶变换,FNET在粘合基准测试中的常见分类转移学习设置中实现了92%,但培训是GPU上的七倍,TPU上的两倍于快速。

仅包含两个自我关注子层的FNET混合模型在胶水基准测试中达到了97%的BERT精度,但在GPU上的速度速度速度近六倍,并且在TPU上的两倍。

FNET对在长距离竞技场基准测试中进行评估的所有“高效”变压器具有竞争力,同时在所有序列长度上具有较轻的内存占地面积。

该研究表明,用FNET的傅立叶子层面取代变压器的自我关注子层实现了显着的准确性,同时显着加速了培训时间,表明使用线性变换作为文本分类任务中的注意机制的替代潜力。纸FNET:在Arxiv上使用傅里叶变换混合令牌。

我们知道您不想错过任何新闻或研究突破。 订阅我们的流行时事通讯同步全球ai每周获得每周AI更新。