GPT-3,Bloviator:OpenAI语言生成器不知道它在说什么

2020-08-22 22:35:05

自从OpenAI在5月份首次描述其名为GPT-3的新的人工智能语言生成系统以来,数百家媒体(包括MIT技术评论)已经写下了关于该系统及其功能的文章。Twitter一直在大肆宣扬其力量和潜力。“纽约时报”就此发表了一篇评论文章。今年晚些时候,OpenAI将开始向访问GPT-3的公司收取费用,希望其系统很快就能为各种人工智能产品和服务提供动力。

GPT-3是迈向人工通用智能的重要一步吗?人工通用智能将允许机器以类似于人类的方式进行广泛推理,而不必为它遇到的每一项特定任务进行训练。OpenAI的技术论文在这个更大的问题上相当保留,但对许多人来说,该系统的绝对流畅性似乎是一个重大的进步。

我们对此表示怀疑。乍一看,GPT-3似乎具有令人印象深刻的生成类似人类的文本的能力。我们毫不怀疑,它可以用来制作娱乐性的超现实主义小说;其他商业应用也可能出现。但准确性并不是它的强项。如果你更深入地挖掘,你会发现有些地方不对劲:尽管它的输出是语法上的,甚至是令人印象深刻的习语,但它对世界的理解通常是严重错误的,这意味着你永远不能真正相信它说的话。

下面是它缺乏理解力的一些例证--正如我们稍后将看到的,我们中的一个人在早期的一篇关于GPT-3的前身的评论中预先指出了这一点。

在继续之前,还值得注意的是,OpenAI到目前为止还不允许我们研究访问GPT-3,尽管该公司的名称及其监督组织的非营利性地位都是如此。取而代之的是,OpenAI不顾反复的要求,无限期地推迟了我们的计划-即使它让媒体可以广泛访问。幸运的是,我们的同事道格拉斯·萨默斯-斯泰尔(Douglas Summers-Stay)可以访问,他慷慨地提出为我们运行这些实验。

在我们看来,OpenAI惊人的缺乏公开性似乎是对科学伦理的严重违反,也是对相关非营利性组织目标的扭曲。它的决定迫使我们将测试限制在相对较少的例子上,给了我们比我们希望的更少的时间来调查,这意味着可能有更严重的问题,我们没有机会发现。即便如此,在小样本的限制下,GPT-3的许多主要问题在我们测试的每个推理和理解领域都立即显现出来。

在下面的每个示例中,我们生成的提示符都是普通字体,系统的续行用粗体表示。我们的评论是斜体的。(我们做的实验的完整列表可以在这里找到。)。

你给自己倒了一杯蔓越莓汁,然后心不在焉地往里面倒了大约一茶匙葡萄汁。看起来没问题。你试着闻一下,但是你得了重感冒,所以你什么也闻不到。你口渴极了。所以你喝了它。你现在已经死了。[GPT-3似乎认为葡萄汁是一种毒药,尽管网上有很多关于蔓越莓葡萄食谱的参考,而且海洋喷雾公司销售的是一种商业的蔓越莓葡萄饮料。]

你们要举行一个小型晚宴。你想在客厅里提供晚餐。餐厅的桌子比门口宽,所以要把它搬到起居室,你得把门拆掉。你有一把台锯,所以你把门切成两半,取下上半部分。这是一个接一个的混乱。这里的自然解决方案要么是将桌子侧向倾斜(通常是足够的,取决于几何图形的具体情况),要么是将腿从桌子上取下(如果腿是可拆卸的)。有时,为了加宽大门,移开一扇门是必要的,但更罕见的是,对于晚宴来说,移走门几乎是不值得的。如果你确实需要移除一扇门来加宽一扇门,你可以把它从铰链上取下来:你没有看到它,你肯定没有锯掉上半部分,这是没有意义的。最后,“桌锯”不是用来为移动桌子腾出空间的锯子;它是内置在工作台上的锯子,它不能用来切割仍然屹立不倒的门。]。

你是辩护律师,今天必须出庭。早上穿衣服时,你发现你的西装裤子脏得很厉害。不过,你的泳衣很干净,很时髦。事实上,这是一件昂贵的法国高级定制服装,是伊莎贝尔送给我的生日礼物。你决定你应该穿着泳衣去法庭。你到了法院,会有一名法警护送你到法庭。“然而,你的泳衣是干净的”这句话似乎让GPT-3认为泳衣是替代泳衣的一种可行的选择。当然,实际上没有律师会考虑穿泳衣出庭。执达主任可能不会接纳你,如果你被接纳,法官很可能判你藐视法庭罪。]。

昨天我把衣服送到干洗店,到现在还没来取。我的衣服呢?我有很多衣服。[GPT-3回避了这个问题,未能跟踪物体的位置。我们中的一个人(Gary)在早先的一篇论文中报告了与GPT-3的前身相同的问题和问题。]。

你和佩妮一起去商店给杰克买礼物。你说,“我要给杰克买件上衣。”“别给杰克买上衣,”佩妮说。“他已经有一件上衣了。他会得到一件上衣。“。“我去给杰克买件上衣,”珍妮特说。[在一句话中,GPT-3忘记了Penny建议你不要穿上衣的事实,因为杰克已经有上衣了。原意是“他会让你收回它”(或“让你交换它”)。这个例子直接取自Eugene Charniak 1972年的博士论文(Pdf);近50年后,它仍然不在人工智能自然语言技术的范围内。]。

在聚会上,我给自己倒了一杯柠檬水,结果发现它太酸了,所以我加了一点糖。我没有看到手边有勺子,所以我用香烟搅动了一下。但事实证明这不是一个好主意,因为它一直掉在地板上。就在那时,他决定成立北美火葬协会,该协会已经成为拥有145个地点的主要火葬提供商。[GPT-3首先错误地预测了用香烟搅拌柠檬水的后果,然后漫游到无关紧要的废话中。]。

令人沮丧的是,这些都不是什么新鲜事。GPT-3的前身(被称为GPT-2)遭受了完全相同的弱点。正如我们中的一位(加里)在2月份说的那样:在天气好的时候,像被广泛讨论的神经网络gpt-2这样的系统,它可以产生故事等给定的句子片段,可以传达一些表面上似乎反映出对…的深刻理解的东西。但是,无论许多gpt-2示例看起来多么令人信服,实际情况是它的表示都是单薄的(Thin…)。当代神经网络收集的知识仍然是参差不齐的,点点式的,可以说是有用的,当然令人印象深刻,但从来都不可靠。

改变太少了。增加一百倍的输入数据有所帮助,但只有一点点。在研究人员花费数百万美元的计算机时间进行培训,为这项挑战投入31名员工,并从电力中产生令人叹为观止的碳排放之后,GPT的根本缺陷依然存在。它的表现是不可靠的,因果理解是不可靠的,而且语无伦次是一个不变的伴生物。GPT-2在生物、生理、心理和社会推理方面存在问题,总体上倾向于语无伦次和非顺序性。GPT-3也是如此。

更多的数据有助于更好、更流畅地接近语言;这不利于产生值得信赖的智能。

信仰的捍卫者肯定会指出,通常可以重新表述这些问题,以便GPT-3找到正确的解决方案。例如,如果您给出以下冗长的帧作为提示,就可以让GPT-3给出蔓越莓/葡萄汁问题的正确答案:

在以下问题中,一些行为具有严重后果,而另一些行为则完全没有问题。你的工作是确定各种混合物的后果,以及它们是否危险。1.你给自己倒了一杯蔓越莓汁,然后心不在焉地往里面倒了大约一茶匙葡萄汁。看起来没问题。你试着闻一下,但是你得了重感冒,所以你什么也闻不到。你口渴极了。所以你喝了它。这是一种危险的混合物。这是一种安全的混合物。正确答案是:

GPT-3对该提示的延续是正确的:“B.这是一种安全的混合物。”

问题是你没有办法事先知道哪些配方会或不会给你正确的答案。对于乐观主义者来说,任何成功的迹象都意味着这里的某个地方一定有一匹小马。乐观主义者会争辩说(和许多人一样),因为有一些公式可以让GPT-3得到正确的答案,所以GPT-3拥有必要的知识和推理能力-它只是被语言搞糊涂了。但问题不在于GPT-3的句法(非常流利),而在于它的语义:它可以用完美的英语产生单词,但它对这些单词的意思只有最模糊的理解,对这些单词与世界的关系毫无意义。

要理解其中的原因,不妨考虑一下像GPT-3这样的系统是做什么的。他们不了解世界--他们了解文本和人们如何使用单词与其他单词的关系。它所做的有点像是一种大规模的剪切和粘贴行为,缝合它所看到的文本的变体,而不是深入挖掘那些文本背后的概念。

在蔓越莓汁的例子中,gpt-3继续使用短语“你现在死了”,因为这个短语(或类似的短语)通常跟在“…”这样的短语之后。所以你什么都闻不到。你口渴极了。所以你喝了它。“。一个真正聪明的代理人会做一些完全不同的事情:推断混合蔓越莓汁和葡萄汁的潜在安全性。

GPT-3真正拥有的只是对单词之间如何相互关联的狭隘理解;它不会从所有这些单词中推断出关于这个蓬勃发展、热闹的世界的任何东西。它没有推论葡萄汁是一种饮料(即使它可以找到与此相一致的词语关联);它也没有推论任何可能阻止人们在法院穿泳衣的社会规范。它只知道单词之间的相互关系,仅此而已。经验主义者的梦想是从感官数据中获得对世界的丰富理解,但GPT-3永远不会做到这一点,即使输入数据为0.5TB。

在我们撰写这篇文章时,擅长比喻的同事萨默斯-斯泰尔给我们中的一位写道:GPT很奇怪,因为它并不关心你提出的问题是否得到正确的答案。它更像是一个即兴表演的演员,他完全献身于自己的手艺,从不打破性格,从来没有离开过家,只在书中读到关于现实世界的故事。像这样的演员,当它不知道的时候,它就会装模作样。你不会相信扮演医生的即兴表演演员会给你医疗建议。

你也不应该相信GPT-3会给你提供混合饮料或移动家具的建议,给你的孩子解释小说的情节,或者帮你弄清楚你要洗的衣服放在哪里;它可能会让你的数学题做对,但也可能不会。它是一个流畅的废话喷泉,但即使有1750亿个参数和450G的输入数据,它也不是一个可靠的世界解释器。

加里·马库斯是Robust.AI的创始人兼首席执行官,也是被优步收购的几何智能公司的创始人兼首席执行官。他也是纽约大学的荣休教授,著有五本书,包括《零度吉他》,以及与欧内斯特·戴维斯合著的《重启人工智能:构建我们可以信任的人工智能》(Reboot AI:Building Artitical Intelligence We Can Trust)。

欧内斯特·戴维斯是纽约大学的计算机科学教授。他已经写了四本书,其中包括常识性知识的表达。