GPT-3及其扩展趋势

2020-06-04 14:32:27

从我的GPT-3帖子上的LW评论来看,那里似乎有很多人认为GPT-3的论文很有价值,因为它表明还有更大的模型做得更好的空间。

(也就是说,重点不是175B的表现,而是从117米到175B的曲线形状,以及对>;175B的影响。)。

在我看来,这种解读似乎是错误的,我在论文中也没有看到多少迹象表明,这就是两位作者试图表达的意思。因此,我在最初的帖子中根本没有讨论进一步的缩放。不过,由于一些人认为这个话题很重要,所以我将结束循环,将我在LW评论中写的一些东西复制到这里:

如果我认为这篇论文显示了一个明确的趋势,有成长的空间,用更大的模型进行更高性能的少镜头学习,我会对“少镜头+大LM”作为一种方法印象更深。

我不认为这说明了这一点。关于这个主题,IMO,最清楚的证据是他们附录H中的许多情节。在很大一部分单独的下游任务上,很少有机会的学习有要么。

具有清晰定义的形状的缩放趋势,到175B点时基本持平,与微调之间的剩余差距似乎不像是要关闭的(示例:WIC、MultiRC、Record、PhysicaQA、OpenBookQA、6个阅读理解任务中的至少5个、安利)。

一种非常嘈杂的趋势,由于噪声,规模回报可能很大,但也可能接近于零(例如:BoolQ、CB、WSC)。

在某些下游任务(Copa、ARC、Winogrande,许多MT任务)、本质上以不同方式探索语言建模技能的“较下游”任务(完形填空/补全)以及合成任务上,伸缩趋势更加令人鼓舞。

平均而言,随着规模的增长有缓慢但稳定增长的趋势(图1.3),但这掩盖了上面列出的巨大的跨任务差异。少数镜头的缩放图片与LM Loss本身的缩放图片非常不同,在另一篇OpenAI论文中编目的缩放图片非常平滑和可预测,并且(如GPT-3所示)平稳地持续到175B。

作为变压器是非常通用的原因的证明:不,我们仍然看到任务性能的广泛传播,尽管LM损失平稳增加,一些最明显的缺陷在所有尺度上持续存在(常识物理,参看第5节),一些非常基本的能力只是在非常大的规模上出现,甚至在那里也是嘈杂的(算术)。

作为AGI组件:否。由于大多数任务上的少量学习没有显示出明显的人类水平的缩放趋势,因此AGI中的任何转换器角色都需要更有效的方式来查询它们(例如由另一个模块控制的微调),或者非转换器模型。

我在LW的评论中没有说过,但在其他地方已经讨论过了,OpenAI预计他们的LM损失的比例法则将在接近GPT-3的比例上崩溃。

这是因为他们的计算效率训练的缩放法则(模型快速增长,数据缓慢增长)最终预测到,根据他们的缩放法则,在给定的数据集大小下实现最佳性能是可能的更好的性能。

具体地说,他们对故障点的点估计(在GPT-3论文之前于2020年1月发布)是。

(注:我不确定我在这里比较的是LIKE TO LIKE,因为我不确定GPT-3是否正好在扩展论文中定义的计算效率边界上,或者差异有什么影响。)。

简而言之,不仅极少的性能不太可能像LM损失那样扩展,根据OpenAI的说法,LM损失本身可能会在增加约1个数量级后以目前的方式停止扩展。

我不清楚那时会发生什么,但这似乎会使任何远远超过175B的简单业绩推断变得复杂,即使是对业绩的衡量也是如此(与极少的机会不同!)。否则,我们预计会无限期地扩大规模。