在计算语言学协会(ACL)的一次典型年会上,该程序是一系列标题的游行,比如“上下文形态变化的结构化变化自动编码器”。同样的技术气息弥漫在论文、研究演讲和许多走廊聊天中。
然而,在今年7月的会议上,有些东西感觉不同了--而且不仅仅是虚拟格式。与会者的对话异常地反思了自然语言处理(NLP)的核心方法和目标,自然语言处理是人工智能的一个分支,专注于创建分析或生成人类语言的系统。今年新的“主题”赛道上的论文提出了这样的问题:目前的方法真的足以实现该领域的最终目标吗?这些目标到底是什么?
我和我在康涅狄格州和纽约的人工智能研究公司Elemental Cognition的同事们认为,这种焦虑是合理的。事实上,我们认为这个领域需要转型,不仅仅是在系统设计方面,而是在一个不那么光鲜的领域:评估。
目前的NLP时代精神源于五年来在标准评估范式下的稳步改进。系统的理解能力通常是在由数千个问题组成的基准数据集上衡量的,每个问题都伴随着包含答案的段落。当深度神经网络在2010年代中期席卷该领域时,它们带来了性能上的巨大飞跃。接下来的几轮工作使分数越来越接近100%(或者至少与人类持平)。
因此,研究人员会发布更棘手问题的新数据集,结果却看到更大的神经网络迅速公布了令人印象深刻的分数。今天的大部分阅读理解研究都需要仔细调整模型,以便在最新的数据集上再增加几个百分点。“最先进的”实际上已经变成了一个专有名词:“我们在班级上以2.4分的优势击败了索塔!”
但该领域的许多人越来越厌倦了这种对领导层的追逐。如果一个庞大的神经网络在某个基准上领先SOTA一两个点,那么世界真正获得了什么呢?似乎没有人关心回答这些问题是为了自己;赢得排行榜是一种学术练习,可能不会让现实世界的工具变得更好。事实上,许多明显的改进不是来自一般的理解能力,而是来自模型在利用数据中的虚假模式方面的非凡技能。最近的“进步”真的转化为帮助人们解决问题吗?
这样的怀疑不仅仅是抽象的烦恼;系统是否真正精通语言理解对社会来说是实实在在的利害关系。当然,“理解”需要广泛的技能集合。对于更简单的应用,比如检索维基百科事实或评估产品评论中的情绪,现代方法做得相当好。但是,当人们想象能够理解语言的计算机时,他们会想到更复杂的行为:帮助人们分析困境的法律工具;从网络上综合信息的研究助手;执行详细指令的机器人或游戏角色。
今天的模型还远远没有达到这种理解水平--目前还不清楚SOTA的另一篇论文会不会让这一领域变得更近。
NLP社区是如何在纸面评估和现实能力之间出现如此大的差距的呢?在一份ACL立场文件中,我和我的同事们认为,在寻求达到困难基准的过程中,评估忽略了真正的目标:那些复杂的下游应用程序。借用这篇论文中的一句话,NLP的研究人员一直在训练成为职业短跑运动员,方法是“环顾健身房,采取任何看起来很难的运动”。
为了使评估更符合目标,考虑是什么阻碍了当今系统的发展是有帮助的。
阅读一篇文章的人将构建实体、地点、事件及其关系的详细表示-文本中描述的世界的“心理模型”。然后,读者可以填充模型中缺失的细节,向前或向后推断场景,甚至可以对反事实的替代方案进行假设。
这种建模和推理正是自动研究助理或游戏角色必须做的事情--而这在今天的系统中显然是缺失的。NLP研究人员通常可以在几次尝试中就能搞懂一套最先进的阅读理解系统。一种可靠的技术是探测系统的世界模型,这可能会让大肆宣传的GPT-3也在喋喋不休地谈论草的旋光叶片。
向自动化读者灌输世界模型将需要系统设计方面的重大创新,正如几个主题轨道提交中所讨论的那样。但我们的论点更基本:无论制度如何实施,如果他们需要忠实的世界模式,那么评估应该系统地测试他们是否拥有忠实的世界模式。
如此直截了当地陈述,这听起来可能很明显,但很少有人这样做。像艾伦人工智能研究所(Allen Institute For AI)这样的研究小组提出了其他方法来强化评估,比如针对不同的语言结构,提出依赖于多个推理步骤的问题,甚至只是聚合许多基准。其他研究人员,如华盛顿大学的蔡业金的团队,则专注于测试常识,这会吸引世界模型的方方面面。这样的努力是有帮助的,但它们通常仍然专注于汇编今天的系统难以回答的问题。
我们提出了一个更根本的转变:为了构建更有意义的评估,NLP研究人员应该从彻底指定系统的世界模型应该包含哪些内容来对下游应用程序有用开始。我们称这样的账户为“理解的模板”。
这种方法的一个特别有前途的试验台是虚构的故事。原创故事信息丰富,无法搜索,是许多应用程序的核心,使它们成为阅读理解技能的理想测试。根据关于人类读者的认知科学文献,我们的首席执行官大卫·费鲁奇(David Ferrucci)提出了一个由四个部分组成的模板,用于测试人工智能系统理解故事的能力。
通过系统地问这些关于故事中所有实体和事件的问题,NLP研究人员可以有原则地对系统的理解力进行评分,探索系统实际需要的世界模型。
看到NLP社区反思当今技术所缺少的东西,这是令人振奋的。我们希望这种想法不仅会导致对新算法的大量投资,而且会导致对测量机器理解能力的新的、更严格的方法的大量投资。这样的工作可能不会成为那么多的头条新闻,但我们怀疑,在这一领域的投资将推动该领域至少像下一个巨大的模式那样向前推进。
杰西·杜尼茨(Jesse Dunietz)是元素认知公司(Elemental Cognition)的研究员,他致力于为阅读理解系统开发严格的评估。他也是麻省理工学院传播实验室的教育设计师和科学作家。