你可能已经听过我们无数次这样说:GPT-3,这个能发出不可思议的类似人类语言的巨型人工智能,是一个奇迹。这在很大程度上也是一种海市蜃楼。你可以用一个简单的技巧来分辨:问它绵羊的颜色,它会像暗示“白”一样频繁地暗示“黑”--这反映了我们俗语中的“害群之马”。
这就是语言模型的问题所在:因为它们只接受文本方面的训练,缺乏常识。现在,北卡罗来纳大学教堂山分校的研究人员设计了一种新技术来改变这一状况。他们称之为“声学化”,它赋予了像GPT-3这样的语言模型“看得见”的能力。
这并不是人们第一次试图将语言模型与计算机视觉相结合。这实际上是人工智能研究的一个快速增长的领域。我们的想法是,这两种类型的人工智能都有不同的优势。像GPT-3这样的语言模型是通过无监督学习来训练的,这不需要人工标记数据,使得它们很容易扩展。相比之下,像物体识别系统这样的图像模型更直接地从现实中学习。换句话说,他们的理解并不依赖于文本所提供的对世界的抽象。他们可以从绵羊的照片中“看出”它们实际上是白色的。
同时可以解析语言和视觉输入的人工智能模型也有非常实用的用途。例如,如果我们想要制造机器人助手,它们需要计算机视觉来导航世界,需要语言来与人类交流。
但将这两种类型的人工智能结合起来说起来容易做起来难。它不像将现有的语言模型与现有的对象识别系统装订在一起那么简单。它需要用包含文本和图像的数据集(也称为视觉语言数据集)从头开始训练一个新模型。
管理这样的数据集最常见的方法是汇编一个带有描述性说明的图像集合。例如,下面这张图片的标题是“一只橙色的猫坐在行李箱里,准备收拾行李。”这与典型的图像数据集不同,典型的图像数据集只用一个名词来标记同一张图片,比如“猫”。因此,视觉语言数据集不仅可以教会人工智能模型如何识别对象,还可以教会它们如何使用动词和介词相互关联和作用。
但是你可以明白为什么这个数据管理过程会永远持续下去。这就是为什么现有的视觉语言数据集如此微不足道。像英文维基百科(实际上几乎包括所有英文维基百科条目)这样的纯文本数据集可能包含近30亿个单词。像Microsoft Common Objects in Context或MS Coco这样的可视化语言数据集只有700万个。这些数据根本不足以训练人工智能模型以获得任何有用的东西。
“Vokenization”绕过了这个问题,它使用无监督的学习方法,将MS Coco中的极少量数据缩放到英文维基百科的大小。由此产生的视觉语言模型在当今用于评估人工智能语言理解能力的一些最难的测试中表现优于最先进的模型。
自然语言处理初创公司Huking Face的联合创始人兼首席科学官托马斯·沃尔夫(Thomas Wolf)说:“你不能仅仅试一试就在这些测试中击败最先进的技术。”沃尔夫没有参与这项研究。他说:“这不是玩具测试。这就是为什么这非常令人兴奋。“。
让我们先整理一下一些术语。“沃肯”到底是什么?
在人工智能中,用于训练语言模型的单词被称为记号。因此,北卡罗来纳大学的研究人员决定将他们视觉语言模型中与每个符号相关的图像称为沃肯(Voken)。Vokenizer是他们所说的为每个令牌寻找语音的算法,而Vokenizer是他们所说的整个过程。
这样做的意义不仅仅是为了表明人工智能研究人员有多喜欢编造单词。(确实如此。)。它还有助于打破声情化背后的基本理念。北卡罗来纳大学的研究人员没有从图像数据集开始,然后手动编写句子作为字幕-这是一个非常缓慢的过程-而是从语言数据集开始,使用无监督学习将每个单词与相关图像进行匹配(稍后将详细介绍)。这是一个高度可扩展的过程。
在这里,无监督学习技术是本文的最终贡献。你实际上是如何找到每个单词的相关图片的?
让我们回到GPT-3。GPT-3是被称为转换器的语言模型家族的一部分,当2017年第一个模型被引入时,这代表着将无监督学习应用于自然语言处理方面的重大突破。变形金刚通过观察单词在上下文中的使用情况,然后根据上下文创建每个单词的数学表示,称为“单词嵌入”,从而学习人类语言的模式。例如,“猫”这个词的嵌入可能表明,它经常在“喵”和“橙”的周围使用,但在“树皮”或“蓝色”的周围使用的频率较低。
这就是转换器如何近似单词的意思,以及GPT-3如何写出类似人类的句子。它在一定程度上依赖于这些嵌入来告诉它如何将单词组合成句子,以及如何将句子组合成段落。
还有一种类似的技术也可以用于图像。它不是扫描文本中的单词使用模式,而是扫描图像中的视觉模式。它将猫在床上出现的频率与在树上出现的频率制成表格,并创建一个嵌入上下文信息的“猫”。
北卡罗来纳大学的研究人员的见解是,他们应该在MS Coco上同时使用这两种嵌入技术。他们将图片转换为视觉嵌入,并将字幕转换为文字嵌入。这些嵌入的真正巧妙之处在于,它们可以在三维空间中绘制出来,你可以从字面上看到它们是如何相互关联的。与单词嵌入密切相关的视觉嵌入将在图表中显示得更近。换句话说,可视化的猫嵌入(理论上)应该与基于文本的猫嵌入重叠。挺酷的。
你可以看到事情的发展方向。一旦所有嵌入都绘制成图表并进行比较并相互关联,就很容易开始将图像(声符)与单词(标记)进行匹配。请记住,因为图像和单词是基于它们的嵌入进行匹配的,所以它们也是基于上下文进行匹配的。当一个单词可能有完全不同的含义时,这很有用。这项技术通过为单词的每个实例找到不同的发音,成功地处理了这一问题。
在这两个例子中,令牌是单词“Contact”。但在第一句话中,上下文暗示这个词指的是联系信息,所以Voken是联系图标。在第二句话中,上下文暗示这个词指的是触摸,所以Voken表示一只猫被抚摸。
研究人员使用他们用MS Coco创建的视觉和文字嵌入来训练他们的发音器算法。一旦接受了训练,发声者就能在英文维基百科中找到代币的发音符号。这并不完美。该算法仅为大约40%的令牌找到了声符。但这仍然是近30亿字数据集的40%。
有了这个新的数据集,研究人员重新训练了一种名为BERT的语言模型,这是一种由谷歌开发的开源转换器,早于GPT-3。然后,他们在六种不同的语言理解测试中测试了新的、改进后的伯特,包括斯坦福大学问答数据集TEAND,它要求模特回答关于一系列文章的阅读理解问题,以及SWIG,它试图用英语的微妙之处绊倒模型,以探索它是否只是在模仿和记忆。改进后的伯特在所有这些人身上都表现得更好,沃尔夫说这是不容忽视的。
研究人员,博士生谭浩和他的导师莫希特·班萨尔将在两周后的自然语言处理经验方法会议上展示他们的新语音技术。虽然这项工作还处于早期阶段,但沃尔夫认为,他们的工作在让无监督学习为视觉语言模型工作方面,是一个重要的概念突破。这是一个类似的火花,在当时帮助戏剧性地推进了自然语言处理。
他说:“在NLP,我们在两年多前取得了巨大突破,然后突然NLP成为一个发生了很多事情的领域,它在某种程度上领先于所有其他人工智能领域。”“但我们有一个问题,那就是把文字和其他东西联系起来。所以这就像是这个机器人只会说话,但看不见,听不见。“。
他说:“这篇论文是他们成功地将其与另一种医疗方式联系起来的一个例子,而且效果更好。”“你可以想象,当你想要在机器人中利用这个非常强大的语言模型时,这些技术中的一些可能会被重复使用。”也许你会用同样的东西把机器人的感官和文字联系起来。“