LMU慕尼黑大学的一组科学家已经开发出模式开发训练(PET),这是一种针对自然语言处理(NLP)模型的深度学习训练技术。使用PET,研究小组训练了一个具有223M参数的Transformer NLP模型,在Superglue基准上,该模型的性能比175B参数的GPT-3高出3个百分点以上。
博士生蒂莫·希克(Timo Schick)和该大学信息与语言处理中心的欣里希·舒茨(Hinrich Schütze)教授在一篇发表在arxiv上的论文中描述了他们的研究过程和实验结果。PET是一种对预先训练的语言模型进行微调的技术,它从未标记的示例中生成额外的软标记训练数据。这有助于提高模型在极少的场景中的性能,例如NLP基准测试,它几乎没有用于微调的标记示例。使用PET,研究人员对阿尔伯特变形金刚的模型进行了微调,在强力胶基准上的平均得分为76.8分,而GPT-3的平均得分为71.8分。
有监督的机器学习通常需要大数据集才能很好地执行计算机视觉或NLP等任务。然而,标注这些大型数据集可能既耗时又昂贵,因为它需要人工识别图像中的对象或对一句话的情绪进行评分。对于NLP任务,许多研究人员已经转向转移学习,即通过在大型未标记数据集(如维基百科的内容)上的自我监督学习来预训练大型模型。一旦模型经过预先训练,就可以在一个小得多的标签数据集上使用有监督的学习,针对特定任务(如情感分析)对其进行微调。大多数最先进的NLP结果都是通过微调预先培训的变压器模型来实现的。
少发学习是一种与微调相关的场景,它测试模型概括为新任务的能力,仅给出该任务的几个示例-通常不到一百个,有时少到一个(一次),甚至没有(零次)。OpenAI的175B参数GPT-3表明,一个大型的预先训练的模型可以在很少的学习场景中表现良好,甚至不需要微调模型的参数;相反,用任务的文本描述和文本示例更新模型的内部状态或上下文,就足以产生仅有32个示例的近乎最先进的结果。然而,Schick和Schütze指出了这种策略的一些缺点:上下文大小的限制限制了可以使用的例子的数量,更重要的是,它依赖于一个如此之大的模型,以至于在许多现实世界的场景中都可以使用。
为了在较小的模型上获得类似的性能,研究人员开发了PET,这是一种半监督训练技术,可以从几个镜头样本中生成额外的训练数据。PET的工作方式是首先将输入示例转换为完形填空风格的短语。这些被用来微调语言模型的集合,然后这些模型被用来注释大型的未标记的数据集,以产生软标记的数据集。然后在软标签数据上对最终模型进行微调。将PET应用于Superglue数据集,团队创建了一个名为FewGLUE的软标签数据集,他们用它来微调Albert模型,该模型在Superglue基准上的性能超过了GPT-3;
主要作者希克在Reddit上的讨论中回答了几个关于这项工作的问题。评论者指出,尽管PET为NLP基准产生了更好的结果,但GPT-3似乎更灵活。希克同意:
GPT-3在生成长文本序列(例如摘要或机器翻译)方面肯定比我们的方法好得多。
InfoQ上上周内容的综述每周二都会发布。加入一个超过25万名高级开发人员的社区。 查看示例
选择您的国家/地区我同意InfoQ.com按照本隐私声明中的说明处理我的数据。