基于迭代守恒突触流的无数据修剪神经网络

2020-06-14 05:35:20

下载PDF摘要:修剪深度神经网络的参数已经产生了浓厚的兴趣,因为在训练和验证期间潜在地节省了时间、内存和精力。最近的工作已经通过一系列昂贵的训练和修剪周期确定了在初始化时中奖彩票或稀疏雨子网络的存在。这就提出了一个基本问题:我们是否可以在初始化时识别高度稀疏的可训练子网络,而不需要经过训练,甚至不需要查看数据?我们通过理论驱动的算法设计给出了肯定的答案。我们首先用数学公式和实验验证了一个守恒定律,它解释了为什么现有的基于梯度的剪枝算法在初始化时会遭受层坍塌,整个层的过早剪枝会导致网络不可训练。这一理论还解释了如何完全避免层坍塌,从而激发了一种新的剪枝算法迭代突触流修剪(SynFlow)。该算法可以解释为在受限于稀疏性约束的情况下,在初始化时保持通过网络的突触强度的总流。值得注意的是,该算法没有参考训练数据,在一系列模型(VGG和ResNet)、数据集(CIFAR-10/100和Tiny ImageNet)和稀疏约束(高达99.9%)上的初始化性能始终优于现有的最先进的剪枝算法。因此,我们的数据不可知的修剪算法挑战了现有的范式,即必须使用数据来量化哪些突触是重要的。