下载PDF摘要:在深度学习中,模型通常对所有输入重用相同的参数,专家混合(MoE)对此提出质疑,而是为每个传入的示例选择不同的参数。结果是一个稀疏激活的模型-不需要大量的参数-但计算成本却是不变的。但是,尽管MoE取得了一些显著成功,但由于复杂性,通信成本和培训不稳定,阻碍了广泛采用-我们使用Switch Transformer解决了这些问题。我们简化了MoE路由算法并设计了直观的改进模型,从而降低了通信和计算成本。我们提出的训练技术有助于消除不稳定性,并且我们首次证明可以以较低的精度(bfloat16)格式训练较大的稀疏模型。我们基于T5-Base和T5-Large设计模型,以在相同计算资源的情况下将预训练速度提高多达7倍。这些改进扩展到多语言设置中,我们可以在所有101种语言中测量mT5-Base版本的收益。最后,我们通过在" Colossal Clean Crawled Corpus"上预先训练多达数万亿个参数模型,来提高语言模型的当前规模。并比T5-XXL型号提高了4倍。