参数是机器学习算法的关键。它们是从历史训练数据中学到的模型的一部分。一般而言,在语言领域,参数数量和复杂程度之间的相关性保持得很好。例如,OpenAI的GPT-3(有史以来最大的语言模型之一,具有1,750亿个参数)可以进行原始类比,生成配方甚至完整的基本代码。
在迄今为止可能是这种相关性最全面的测试中,谷歌研究人员开发并基准化了他们声称使他们能够训练包含超过一万亿个参数的语言模型的技术。他们说,他们的1.6万亿参数模型似乎是迄今为止最大的模型,其速度是Google以前开发的最大语言模型(T5-XXL)的4倍。
正如研究人员在详细说明其工作的论文中指出的那样,大规模培训是通向强大模型的有效途径。具有大量数据集和参数计数的简单体系结构远远超过了复杂的算法。但是有效的大规模培训需要大量的计算。这就是为什么研究人员追求他们所谓的Switch Transformer的原因,它是一种“稀疏激活”技术,仅使用模型权重的一个子集或在模型中转换输入数据的参数。
Switch Transformer融合了专家的知识,这是90年代初首次提出的AI模型范例。粗略的概念是将多个专家或专门从事不同任务的模型放在一个较大的模型中,并有一个“门控网络”来选择要咨询任何给定数据的专家。
Switch Transformer的新颖之处在于,它有效地利用了为密集矩阵乘法而设计的硬件-广泛用于语言模型的数学运算-例如GPU和Google的张量处理单元(TPU)。在研究人员的分布式培训设置中,他们的模型在不同设备上分配了唯一的权重,因此权重随设备数量的增加而增加,但在每个设备上保持可管理的内存和计算空间。
在一项实验中,研究人员使用Colossal Clean Crawled Corpus上的32个TPU内核对了几种不同的Switch Transformer模型进行了预训练,这是一个从Reddit,Wikipedia和其他Web来源刮取的750GB大小的文本数据集。他们对模型的任务是预测被掩盖了15%的单词的段落中的丢失单词,以及其他挑战,例如检索文本以回答一系列日益棘手的问题。
研究人员声称,他们的1.6万亿参数模型由2,048名专家(Switch-C)表现出“完全没有训练不稳定性”,而较小的模型(Switch-XXL)则包含3950亿参数和64位专家。但是,在一个基准测试中,即Sanford问答数据集(SQuAD),Switch-C得分较低(87.7),而Switch-XXL(89.6)低,研究人员将其归因于微调质量,计算要求和性能之间的不透明关系。参数数量。
在这种情况下,开关变压器带来了许多下游任务。研究人员说,例如,它可以在使用相同数量的计算资源的情况下使预训练速度提高7倍以上,他们证明,大型稀疏模型可以用于创建较小的,密集的模型,这些模型可以对30%的任务进行精细调整大型模型的质量提升。在一项测试Switch Transformer模型以在100多种不同语言之间进行翻译的测试中,研究人员观察到101种语言的“普遍改进”,与基线模型相比,91%的语言受益于4倍以上的加速。
研究人员在论文中写道:“尽管这项工作集中在非常大的模型上,但我们还发现只有两名专家的模型可以提高性能,同时又很容易适应常见GPU或TPU的内存限制。” “我们不能完全保持模型的质量,但是通过将稀疏模型提炼为密集模型,同时获得专家模型的〜30%的质量增益,压缩率可以达到10到100倍。”
在未来的工作中,研究人员计划将Switch Transformer应用于“新的和跨不同的模式”,包括图像和文本。他们认为模型稀疏性可以在多种不同的媒体以及多模式模型中发挥优势。
不幸的是,研究人员的工作没有考虑到这些大型语言模型在现实世界中的影响。模型通常会放大此公共数据中编码的偏差。培训数据的一部分并非罕见地来自具有普遍性别,种族和宗教偏见的社区。人工智能研究公司OpenAI指出,这可能导致在女性代词旁放置“调皮”或“吸吮”等词语,并在“恐怖主义”等词语附近放置“伊斯兰教”。其他研究,例如英特尔,麻省理工学院和加拿大AI倡议CIFAR研究人员于4月发表的一项研究,发现一些最受欢迎的模型(包括Google的BERT和XLNet,OpenAI的GPT-2和Facebook的RoBERTa)存在高度的刻板印象。根据米德尔伯里国际研究所的说法,恶意行为者可以通过传播错误信息,虚假信息和彻头彻尾的谎言“将个人激化为极端的极右翼极端主义的意识形态和行为,”来利用这种偏见来煽动不和。
仅供参考,@ mmitchell_ai,我发现9月份有40人参加了有关Google法学硕士的会议,但我们团队中没有人被邀请或不知道这次会议。因此,他们在决定要在操场上做什么之后才希望道德AI成为橡皮图章。 https://t.co/tlT0tj1sTt
目前尚不清楚Google在已发布的机器学习研究方面的政策是否可能对此起到了作用。据路透社报道,去年年底,该公司的研究人员现在必须先咨询法律,政策和公共关系团队,然后再进行诸如面孔和情感分析以及种族,性别或政治归属的分类等话题。 12月初,据报道,谷歌解雇了AI伦理学家蒂姆尼特·格布鲁(Timnit Gebru),部分原因是他针对大型语言模型进行了研究,该模型讨论了风险,包括其碳足迹对边缘化社区的影响以及他们长期滥用语言,仇恨言论,微侵略行为,刻板印象和其他针对特定人群的非人性化语言。
VentureBeat的使命是成为技术决策者的数字城镇广场,以获取有关变革性技术和交易的知识。 我们的网站提供有关数据技术和策略的重要信息,以指导您领导组织。我们邀请您成为我们社区的成员,可以访问: 成为会员