GPT-3:语言模型是少有的学习者

2020-05-29 10:02:47

最近的工作显示,通过在大量文本语料库上进行预先培训,然后对特定任务进行微调,在许多NLP任务和基准方面取得了实质性进展。虽然这种方法在体系结构上通常与任务无关,但它仍然需要数千或数万个示例的特定于任务的微调数据集。相比之下,人类通常只需几个例子或简单的指令就能完成一项新的语言任务-这是目前的NLP系统在很大程度上仍然难以做到的。在这里,我们展示了扩展语言模型极大地提高了与任务无关的、不太可能实现的性能,有时甚至达到了与以前最先进的微调方法的竞争力。具体地说,我们训练了GPT-3,一个有1750亿个参数的自回归语言模型,比以前的任何非稀疏语言模型都多了10倍,并测试了它在少镜头环境下的性能。对于所有任务,GPT-3在没有任何渐变更新或微调的情况下应用,任务和少量演示完全通过与模型的文本交互指定。GPT-3在许多NLP数据集上都取得了很好的性能,包括翻译、问答和完形填空任务,以及一些需要即时推理或领域调整的任务,如解乱单词、在句子中使用新词或执行3位数算术。同时,我们也确定了GPT-3在少数情况下学习仍然困难的一些数据集,以及GPT-3在大型网络语料库上面临的方法论问题。最后,我们发现GPT-3可以生成人类评价者难以区分的新闻文章样本。我们讨论了这一发现和GPT-3总体上的更广泛的社会影响。

175b_samples.jsonl-来自GPT-3(p=.85,t=1)的无条件、未过滤的2048个令牌样本。内容警告:GPT-3根据来自Web的任意数据进行训练,因此可能包含攻击性内容和语言。

overoverfrequency.md-13克的样本在我们的训练数据和基准之间重叠,由训练集中的频率选择。

@文章{brown2020language,title={语言模型是少数学习者},作者={Tom B.Brown和Benjamin Mann,Nick Ryder,Melanie Subbiah,Jared Kaplan,Prafulla Dhariwal,Arvind Neelakantan,Pranav Shyam,Girish Sastry,Amanda Askell和Sandhini Agarwal,Ariel Herbert-Voss,Gretchen Krueger和Tom Henighan。ArchivePrefix={arxiv},primary Class={cs.CL}}