GPT-Neo是一系列基于转换器的语言模型的代号,这些语言模型围绕我们计划培训和开源的GPT体系结构松散地设计。 我们的主要目标是免费复制GPT-3尺寸的模型并将其开源。 在此过程中,我们将使用替代体系结构和注意力类型进行实验,发布任何中间模型,并在我们的博客上写下所有发现。 我们的模型建立在Tensorflow-mesh中,这将使我们可以扩展到GPT-3大小,甚至可以使用同时模型和数据并行性扩展。