自然语言处理的最新进展

2020-08-17 02:56:19

如果你喜欢这篇文章,请点击这里查看我的免费书籍:“检疫中要读的东西:2018-2020年的随笔”。

是语言学、计算机科学、信息工程和人工智能的一个子领域,研究计算机和人类(自然)语言之间的相互作用,特别是如何对计算机进行编程,以处理和分析大量的自然语言数据。

在最近机器学习技术突飞猛进的过程中,该领域取得了巨大的进步。

A)Winograd Schema是常识推理的测试-对人类来说很容易,但在历史上对计算机来说几乎是不可能的-这要求考生指出一个模棱两可的代词代表哪个名词。正确答案取决于一个单词,这个单词在问题的两个不同版本之间是不同的。例如:

Winograd图式测试最初的目的是作为图灵测试的更严格的替代品,因为它似乎需要深入了解世界上的事物是如何组合在一起的,以及在语言环境中对这些知识进行推理的能力。最近在自然语言处理方面的进步使计算机获得了接近人类的分数:(https://gluebenchmark.com/leaderboard/).。

B)纽约摄政王的科学考试是一项既需要科学知识又需要推理技能的考试,涵盖的主题极其广泛。其中一些问题包括:

1.哪种设备能最好地分离铁屑和黑胡椒的混合物?(1)磁铁(2)滤纸(3)三束天平(4)电压表。

2.橡皮筋振动时产生哪种形式的能量?(1)化学(2)光(3)电(4)声

3.因为铜是一种金属,所以它(1)在室温下是液体(2)不与其他物质反应(3)导电性差(4)导热性好。

4.苹果树的哪个过程主要是细胞分裂的结果?(1)生长(2)光合作用(3)气体交换(4)清除废物。

在8年级的非基于图表的问题测试中,最近有一个程序可以得到90%的分数。(完)(完)。

这也不仅仅是关于答案的选择。文本生成方面的进展令人印象深刻。例如,请参阅威震天创建的一些文本示例:https://arxiv.org/pdf/1909.08053.pdf。

这些进展很大程度上是快速的。例如,Winograd模式的重大进展看起来可能还需要几十年的时间才能(从记忆中)回溯到2018年的大部分时间。计算机科学发展很快,但我们的概念是否跟上还不清楚。

我发现NLP的这一相对突然的进展令人惊讶。在我的脑海里-也许这是天真的-我曾想过,为了用任何设施尝试这些类型的任务,简单地向计算机输入大量的文本是不够的。相反,任何理解语言的“适当”尝试都必须整合不同形式的经验和理解,比如视觉和听觉,以便全面了解世界上事物是如何相互联系的。只有在这种语言外的基础上,它才能灵活地处理涉及丰富意义的问题,我们可以称之为多模态命题。无论多模态理论是否适用于某些类型的问题,它对于比我和其他许多人所怀疑的要少得多的问题肯定是正确的。

我认为科幻猜测通常支持我这个(错误的)预感。大多数人都认为这种高层次的语言“理解”会是AI研究的巅峰之作,程序之后出现的东西已经有了一个复杂的语言外世界模型。这似乎是显而易见的--这是一个很好的例子,说明了你甚至不知道自己正在做的假设如何会破坏预测未来的尝试。

事后看来,光是大量的文本就可以用来构建回答这些问题所需的能力,这是有一定道理的。许多人提醒我们,这些程序实际上只是对单词共现的统计分析,无论多么复杂和美化。然而,我们不应该忘记,单词之间的关系与事物之间的关系是同构的--这就是语言起作用的原因。这就是说,语言使用的模式反映了事物本身的模式(1)。模型是传递性的-如果x模型y,y模型z,那么x模型z。这些事实的结果是,如果你有一个非常好的统计模型来描述单词之间的关系,那么这个模型也隐含着一个世界的模型。

想想怎样才能创建一个八年级的科学模型,足以理解和回答成百上千个不同的问题,比如“生长是由细胞分裂驱动的”,以及“磁铁可以用来做什么”,而不是由NLP领导的,这可能是有启发性的。这将是许多不同(可能是手工制作的)模型的噩梦。说得有点宽松,语言可以极大地压缩智力。从这个角度来看,在基于语言的程序中发现了一些真正广泛的能力的最初迹象-常识推理、广泛的问题解决等-这并不令人惊讶-单词及其关系只是比替代方案更有效地表示知识的方式。

因此,我发现自己在想,语言是否不是普通智力的王冠,而是通向普通智力的潜在捷径。

几周前,我完成了这篇文章,通读了一遍,认为它不够好,不适合发表。关于语言与世界同构的观点,因此任何足够好的语言模型都是世界的模型,这一点很重要,但它是一种抽象的,远远不是原创的。

然后今天我读到了斯科特·亚历山大(Scott Alexander)的这篇报道,报道说他训练了GPT-2(一种语言程序)下棋。我意识到这是一个完美的例子。GPT-2对棋盘排列之类的事情没有(视觉)理解。但是,如果您给它提供足够的字母数字编码的游戏序列(1.kt-f3、d5等等),它就会开始理解这些字符串中与国际象棋本身同构的模式。因此,无论出于何种目的,它都开发了一种国际象棋模型。

这种方法到底有多强-GPT-2是能够进行一些有限的分析,还是只能过多地适应开口-还有待观察。我们可能会有一个更好的想法,因为它是优化的-例如,一旦它是美联储的董事会状态,而不是动作序列。不过,无论哪种方式,它都说明了同构这一点。

当然,日常语言与绵羊、松果、欲望和夸克的关系比象棋走法的正式语言与象棋走法的关系要好得多,而且模式也要复杂得多。情态、不确定性、模糊性和其他复杂性进入,但世界和语言之间的同构是存在的,即使不是精确的。

在提出类似的论点后,通常会有人提到中式房间思维实验。关于这件事,我认为有两点是有用的:

A)思维实验是一场关于意识的争论,是一件很难量化或理解的事情。目前还不清楚人工智能到底能做些什么,是否有一个实际的结果。

B)思维实验的很大力量取决于这样一个事实,即房间使用查找表来解决问题,这是堆叠起来的。也许我们更愿意说,如果房间里形成了一个(隐含的)事物如何和当前环境的模型,并使用这些模型来回答问题,那么整个房间就能理解语言?即使这不能解决房间里不懂中文的所有直觉,我也认为这会让人吃一口。

(1)-严格地说,当然只有真实句子中的模式反映了世界的安排,或者与世界的安排同构,但人们说出的大多数句子至少是近似真实的。