下载PDF摘要:高效网络(EfficientNets)是一系列最先进的图像分类模型,基于高效缩放的卷积神经网络。目前,EfficientNet可以花费数天的时间进行培训;例如,在Cloud TPU v2-8节点上培训一个EfficientNet-B0模型需要23个小时。在本文中,我们探索了在具有2048个核心的TPU-v3吊舱上扩大高效网络训练的技术,其动机是在这样的规模上训练可以达到的加速比。我们讨论了在1024TPU-v3核上将训练规模扩大到65536批所需的优化,例如选择大批量优化器和学习速率时间表,以及利用分布式评估和批量归一化技术。此外,我们提出了在ImageNet数据集上训练的高效网模型的时序和性能基准,以便在规模上分析高效网的行为。通过我们的优化,我们能够在ImageNet上训练EfficientNet,在1小时40分钟内达到83%的准确率。