谷歌培训600B参数变压器

2020-07-02 09:05:54

下载PDF摘要:在许多拥有大量训练数据和计算的真实世界机器学习应用程序中,神经网络缩放对于提高模型质量至关重要。虽然这种扩展趋势被肯定是提高模型质量的必经之路,但在这条道路上也存在一些挑战,如计算成本、编程简易性和在并行设备上的有效实施。GShard是一个模块,由一组轻量级注释API和XLA编译器的扩展组成。它提供了一种优雅的方式来表达广泛的并行计算模式,而对现有模型代码的改动最小。GShard使我们能够利用自动切分将具有稀疏门控专家混合的多语言神经机翻译变压器模型放大到6000亿个参数以上。我们证明,这样一个巨大的模型可以在4天内在2048台TPU v3加速器上进行有效的培训,与现有技术相比,可以获得远高于现有技术的100种语言到英语的翻译质量。