读“理解情境化人工智能体的早期词汇学习”一文

2020-07-19 02:24:54

如今,基于神经网络的系统可以学习和处理不同的语言,以便执行相关的动作。要做到这一点,神经网络必须实现所谓的扎根语言学习,在这种情况下,模型必须克服某些挑战。这些挑战与婴儿在学习第一个单词时所面临的挑战有许多相似之处。婴儿通过听他们听到的演讲来学习单词的形式。尽管人们对这些形式对婴儿的意义程度知之甚少,但这些词在早期语言发展中仍然发挥着作用。同样,值得注意的是,虽然没有有意义的先验知识的模型也可以克服这些障碍,但研究人员目前对它们是如何做到的缺乏清晰的理解。DeepMind研究人员费利克斯·希尔(Felix Hill)、斯蒂芬·克拉克(Stephen Clark)、卡尔·莫里茨·赫尔曼(Karl Moritz Hermann。

就像婴儿在生命早期发现和学习单词一样,人们相当合理地认为,婴儿表现出的那种学习也可以延伸到语言学习媒介。幼儿学习者的许多自然现象/行为是自然语言处理主体的特征。这篇论文精心设计了人工语言学习实验,以复制婴儿从什么条件下学习的信息来源;并探索如何最好地描述学习过程的特征以及最终结果可能是什么。这篇论文分为以下几个主题。

智能体的词汇学习动力及其与人类语言学习动力的关系。

对学习动因的分析试图解释动因诱导单词有意义扩展的能力。

本文进行的实验发生在DeepMind Lab模拟世界(Beattie等人,2016),这是一个为研发通用人工智能和机器学习系统而设计的第一人称3D游戏平台。DeepMind实验室可以用来研究自主人工代理如何在大型的、部分观察到的和视觉多样化的世界中学习复杂的任务。在每一集中,代理都会收到一个单词的指令,并因满足指令而获得奖励。例如,如果代理人“发现并撞到一支铅笔”,“铅笔”这个词可能会带来积极的奖励。在该集的每个时间步,代理接收实值视觉输入的3×84×84(RGB)像素张量和表示指令的单个单词,并且必须执行8个动作集中的一个移动动作。这8个动作包括向前移动、向后移动、向左移动、向右移动、向左看、向右看、向左扫视和向右扫视。下面的表1显示了单词类别和说明含义的示例。

这一集在特工撞到任何物体后结束,或者当达到100个时间步的限制时结束。为了成功完成任务,代理必须首先学习感知其环境。智能体必须通过头部的移动,即转动动作来主动控制其视觉环境。此外,它还必须通过一系列有意义的动作来导航其周围环境。图1显示了此实验设置的可视示例。代理观察到两个3D旋转对象和一个单字语言指令。然后,它必须选择与指令匹配的对象。

座席开始一集的位置范围(接近房间尽头)。

可以显示的对象列表以及这些对象的相对出现频率

似乎环境受到了令人难以置信的限制。然而,仍然有大量独特的配置可以设置剧集。

在本节中,我们将讨论代理体系结构中涉及的模块。在每个时间步到代理的输入包括用于处理符号输入(嵌入层)和视觉输入(卷积网络)的模块。紧随其后的是前馈线性层(混合模块),它组合输入并将其传递到LSTM核心存储器。核心存储器(LSTM)的隐藏状态被馈送到计算策略的动作预测器(完全连接层加上Softmax)和用于计算预期的“奖励”的估计器值。图2.显示了体系结构。

我们将更详细地了解代理体系结构。在每个时间步t,视觉输入v_t由卷积视觉模块编码,语言模块嵌入指令字l_t,混合模块对v_t和l_t的拼接进行操作,将LSTM的隐藏状态s_t馈送到计算策略的动作预测器中。该策略是关于可能的马达动作的概率分布,例如π(a_t|s_t)。状态值函数估计器val(S_T)计算代理状态值函数的标量估计,这是预期的未来回报。该值估计用于计算异步优势参与者-批评者(A3C)策略梯度算法(Mnih等人,2016)中的回报基线,该算法与RMSProp优化器(Tieleman和Hinton,2012)一起确定网络中的权重更新。

在第一个实验中,随机初始化代理网络中的权重。代理人接受关于情节的培训,使用指代物体的形状、颜色、图案、相对阴影或位置的指导词。插曲设置如前所述。代理从一个小房间的尽头开始,另一个房间有两个物体。在每个时间步长,单指令字以离散符号的形式呈现。在训练过程中,所有单词出现的频率都是相等的。每集中的指令词明确指定两个目标对象中的一个。如果撞到正确的对象,代理将获得+10奖励,如果撞到错误的对象,代理将获得−10分,如果已达到最大时间步数,代理将获得0分。据观察,代理人慢慢学会了对呈现给它的词语做出正确的反应。此外,在某种程度上,单词学习的速度加快了。这是一个有趣的观察,因为这种现象也在幼儿学习者中观察到!通过使用来自像素输入的RL算法训练代理,还进行了单独的实验。在这两种情况下,代理都能够直接走到两个对象面前,并在培训结束时可靠地识别适当的对象。观察到,如果代理人事先知道一些单词,训练过程就会加快。实验在先验知识为2个词和20个词的代理上进行。这是通过在单词学习任务中对代理进行培训来完成的,但将词汇量分别限制在2个和20个单词。代理预先训练了20个单词,学习新单词的速度更快。这一现象类似于人类的发展,学习者对语言的了解越多,学习就变得越容易。图3显示了这些过程/观察结果。

还进行了实验,试图以课程的形式减少单词学习开始前的奖励训练情节的数量。这是通过缓和代理最初面临的学习挑战的范围来实现的,然后在单词学习开始后扩大其经验。具体地说,首先训练代理在两种情况下学习40个形词的含义:

仅用40个单词的子集(随机选择)训练代理,直到掌握了单词(如1000次连续试验的平均奖励9.8/10所示)。

一旦满足了这两个条件,子集就会扩展为包含更多单词。例如,座席最初接受2字子集的培训。当代理以高置信度学习这两个单词时,子集被扩展到5个单词子集,然后是10个单词子集,依此类推,直到最终代理接触到所有40个单词。据观察,跟随课程的代理人达到40个单词的速度比立即面对大量新单词的代理人快。这一效果与早期接触简单、清晰的语言输入有助于儿童语言学习能力的观点一致(Fernald等人,2010年)。它也与在基于文本的语言数据上训练神经网络时观察到的课程学习效果一致(Elman,1993;Bengio等人,2009年)。另一种减少单词学习所需情节数的方法是应用

O_1:形状为s_a,颜色为c‘∉C∪{c_a}(如蓝色铅笔),

O2:Shape s‘∉S∪{s_a},颜色为c_a(如黑色叉子)。

在训练期间,特工既没有观察到蓝色,也没有观察到形状叉子。与最初的人体实验一致,可以测量试剂中的形状偏差程度。随着药剂的学习,它倾向于选择O_1而不是O_2。进行了诱导药剂形状/颜色偏差的实验。将这些代理人暴露在不同的培训方案中,并观察他们的偏差。在第一种设置下,只教给座席颜色词(|S|=0,|C|=8)。不出所料,这会导致该药剂产生强烈的颜色偏向。在第二种方案中,代理被教授相同数量的形状和颜色术语(|S|=8,|C|=8),并且也形成了颜色偏向。最后,观察到在训练中使用的更大的一组形状(|S|=20,|C|=0)使代理人产生(类似于人类的)形状偏见。图5显示了在不同的制度下,药剂中的形状/颜色偏向是如何发展的。

蓝线代表偏见。中间的蓝色虚线表示没有偏向的中性状态。蓝色实线表示是否存在形状或颜色偏差,具体取决于它是在中性线之上还是之下。可以看出,形状偏差只出现在代理人只接受形状训练的制度中。这与兰道等人的发现不符,但一种潜在的解释可能会为这种情况的发生提供洞察力。这可能是因为,与与形状相关的信息不同,代理可以在其像素输入中直接访问RGB形式的颜色。因此,如果环境是平衡的,作用剂可能会偏爱颜色而不是形状。值得注意的是,Ritter等人。能够在ImageNet上训练的卷积网络中进行导致形状偏差的实验。实验表明,这种效果更可能是由训练数据的分布驱动的(ImageNet数据包含更多基于形状的类别,而不是基于颜色的类别),而不是底层的卷积结构。将这些观察结果与人类学习者联系起来,可以得出结论,环境因素在偏见的发展中起着作用。例如,如果某一类别出现的频率较高,则该代理会对该类别产生偏见。在(美国)儿童的语言环境中,形状术语比颜色术语出现的频率更高(这一点通过分析儿童导向的语言语料库得到了证实)。

本文研究的人类学习者的另一个现象是婴儿对明显无结构的原始知觉刺激的理解能力。这需要学习者诱导单词的有意义的延伸(当环境中有无限的潜在参照物时),并在语义记忆中组织这些单词的意义。举一个具体的例子,假设一个孩子试图学习“球”这个词的概念。孩子被反复接触一个小红球,直到他们最终认出它是一个“球”。假设这个小红球随后被一个篮球代替。孩子们很可能不会把篮球误认为他们的小红球,但从某种意义上说,这正是他们后来会学到的-球这个词可以用来表示无限大类物体中的任何成员。在语言学习代理中也观察到了类似的效果。在给定的时期之后,将有一组Agent以前遇到过的感知,并从这些感知中归纳出一个概念,这些概念将使他们能够识别未来呈现的模式的无限大量实例。对训练好的Agent进行了分析,以更好地了解Agent是如何解决跨情景单词学习问题的。首先,我们看一下单词嵌入在对来自不同类别的单词进行训练的代理中的可视化空间。可以观察到,这些词类与语义(形状与颜色)和句法(形容词与名词)范畴相一致,在施事的嵌入空间中自然出现。图6显示了代理的单词表示空间的示例。

本文对一种语言学习代理进行了分析。我们的目标是更好地对扎根语言学习有更好的总体理解,为未来的研究提供信息,并提高对模型预测的信心。一个长期的观察是,学习代理在培训期间面临的挑战与婴儿第一次学习语言时面临的挑战相似。本文研究了这些相似之处,并探索了人类学习偏见通常形成的条件。它还提供了对扎根语言学习代理中的语义表示的可视化和分析。浅谈对情境中早期词汇学习的理解