下载PDF摘要:最近的工作表明,通过在大量文本语料库上进行预培训,然后针对特定任务进行微调,在许多NLP任务和基准方面都取得了实质性进展。虽然这种方法在体系结构上通常与任务无关,但它仍然需要数千或数万个示例的特定于任务的微调数据集。相比之下,人类通常只需几个例子或简单的指令就能完成一项新的语言任务--这是目前的NLP系统在很大程度上仍然难以做到的。在这里,我们展示了扩展上行语言模型极大地提高了与任务无关的、极少的性能,有时甚至达到了与先前最先进的微调方法的竞争力。具体地说,我们训练了GPT-3,一个有1750亿个参数的自回归语言模型,比以前的任何非稀疏语言模型都多了10倍,并测试了它在少射情况下的性能。对于所有任务,GPT-3在没有任何梯度更新或微调的情况下应用,任务和少量演示完全通过与模型的文本交互指定。GPT-3在许多NLP数据集上都取得了很好的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域调整的任务,如解乱单词、在句子中使用新词或执行3位数算术。同时,我们也确定了一些GPT-3的少机会学习仍然困难的数据集,以及GPT-3在大型网络语料库上面临的方法论问题。最后,我们发现GPT-3可以生成人类评价者难以区分的新闻文章样本。我们讨论了这一发现的更广泛的社会影响,以及GPT-3的一般影响。