缩小深度学习模型的一种万无一失的方法

2020-05-08 22:31:36

随着越来越多的人工智能应用程序转向智能手机,深度学习模型变得越来越小,以使应用程序运行得更快,并节省电池电量。现在,麻省理工学院的研究人员有了一种新的更好的压缩模型的方法。

这是如此简单,以至于他们在上个月的一条推文中公布了它:训练模型,修剪最薄弱的连接,以快速、早期的训练率重新训练模型,然后重复,直到模型变得像你想要的那么小。

“就是这样,”麻省理工学院的博士生亚历克斯·伦达说。“人们修剪模型的标准做法非常复杂。”

伦达在本月召开的国际学术代表会议(ICLR)远程会议上讨论了这项技术。伦达与麻省理工学院电气工程和计算机科学系(EECS)博士生乔纳森·弗兰克尔(Jonathan Frankle)以及电气工程和计算机科学助理教授迈克尔·卡尔宾(Michael Carbin)共同撰写了这项工作-他们都是美国计算机科学和人工科学实验室的成员。

对更好压缩技术的探索源于弗兰克尔和卡尔宾去年在ICLR的论文《彩票假说》中获奖,他们的研究表明,如果在训练早期发现正确的子网络,深层神经网络的连接数量只需十分之一。“。他们的发现正值对训练更大的深度学习模型的计算能力和能源的需求呈指数级增长之际,这一趋势一直延续到今天。这种增长的代价包括全球变暖碳排放的增加,以及创新的潜在下降,因为与大型科技公司没有关联的研究人员正在争夺稀缺的计算资源。日常用户也会受到影响。大型人工智能模型会消耗手机带宽和电池电量。

但在一位同事的建议下,弗兰克尔决定看看它对修剪有什么启示,这是一套通过移除不必要的连接或神经元来减小神经网络大小的技术。修剪算法已经存在了几十年,但在神经网络在ImageNet竞赛中对图像进行分类方面取得突破性成功后,该领域出现了复兴。随着模型变得越来越大,研究人员增加了人工神经元的层来提高性能,其他人提出了缩小模型的技术。

宋涵,现在是麻省理工学院的高级助理教授,就是先驱之一。在一系列有影响力的论文的基础上,韩公布了一种他称为AMC的修剪算法,即用于模型压缩的AutoML,但这仍然是行业标准。在韩的技术下,冗余的神经元和连接会自动移除,然后对模型进行重新训练,以恢复其最初的准确性。

为了回应韩的工作,弗兰克尔最近在一篇尚未发表的论文中建议,通过将较小的修剪后的模型倒回其初始参数或权重,并以更快的初始速率重新训练较小的模型,可以进一步改善结果。

在目前的ICLR研究中,研究人员意识到,该模型可以简单地倒带到其早期的训练率,而不需要调整任何参数。在任何修剪方案中,模型越细,它的精确度就越低。但当研究人员将这种新方法与韩的AMC或弗兰克尔的权重回溯方法进行比较时,无论模型缩小了多少,它的表现都更好。

目前还不清楚为什么修剪技术能起到这么好的效果。研究人员表示,他们将把这个问题留给其他人来回答。研究人员说,对于那些希望尝试的人来说,该算法和其他修剪方法一样容易实现,而不需要耗时的调整。

“这是”书“中的修剪算法,”弗兰克尔说。“它清晰、通用,而且非常简单。”

就韩而言,他现在已经部分地将重点从压缩AI模型转移到从一开始就引导AI设计小型、高效的模型。他的最新方法,一劳永逸,也在ICLR首次亮相。在谈到新的学习率方法时,他表示:“我很高兴看到新的修剪和再培训技术的发展,让更多的人能够接触到高性能的人工智能应用程序。”

这项研究得到了国防高级研究计划局、谷歌、麻省理工学院-IBM沃森人工智能实验室、麻省理工学院情报探索和美国海军研究办公室的支持。