欢迎来到下一层的废话节目

2020-09-11 21:02:07

我们文化最显著的特点之一就是废话太多。“。这是哲学家哈里·法兰克福写的一本关于废话的短书的开场白。在这本出人意料的畅销书出版15年后,人工智能研究的快速进步正迫使我们重新考虑将废话作为人类语言的标志的概念,其影响令人担忧。对废话的哲学反思与算法有什么关系?事实证明,这是相当多的。

今年5月,由埃隆·马斯克于2015年与人共同创立的OpenAI公司推出了一种名为GPT-3的新语言模型(即“生成性预训变形金刚3”(Generative Pre-Traded Transformer 3))。它在科技界掀起了一场风暴。从表面上看,GPT-3就像智能手机上自动完成功能的增强型版本;它可以根据初始输入生成连贯的文本。但是GPT-3的文本生成能力远远超出了你的手机的能力。它可以消除代词的歧义,可以翻译、推断、类推,甚至可以执行某种形式的常识推理和算术。它可以产生人类几乎不可能察觉的假新闻文章。给出一个定义,它可以在句子中使用一个虚构的词。它可以用著名作家的风格重写一段文字。是的,它可以写有创意的小说。或者基于其功能的描述为程序生成代码。它甚至可以回答有关常识的查询。名单还在继续。

GPT-3是一个工程奇迹,因为它的规模令人叹为观止。它包含分布在96个层上的1750亿个参数(“神经元”或网络单元之间的连接中的权重)。它在12,288维的向量空间中产生嵌入。它被训练了数千亿个单词,代表了互联网的一个重要子集-包括整个英文维基百科,无数的书籍和令人眼花缭乱的网页。据估计,仅培训最终模型一项就耗资约500万美元。所有人都说,GPT-3是一个庞然大物。在不对多年的体系结构进行根本改进的情况下,扩大其网络和训练数据的大小,就足以引导该模型在一系列复杂任务上获得出人意料的卓越性能,而且开箱即用。事实上,GPT-3能够“几杆”,甚至在某些情况下,“零杆”学习,或者学习执行一项新任务,而不需要任何成功的例子。

与GPT-3互动是一种超现实的体验。通常感觉就像是在和一个有信仰和欲望的人交谈。在2013年的电影“她”中,主人公与一位虚拟助手发展了一段浪漫的关系,当他意识到他正在将人类的情感和动机投射到“她”的外星人头脑中时,他很快就醒悟了。GPT-3远不及电影中的人工智能,但它仍然可以进入我们的内心。像Replika这样的一些科技初创公司已经在致力于创造根据一个人想要的特征塑造的人工智能同伴。毫无疑问,即使是用GPT-3构建的一个简单的聊天机器人,许多人也会倾向于拟人化。人们想知道,在一个已经发现社交媒体与真人互动会增加社会孤立的世界里,这一趋势可能会产生什么后果。

OpenAI很清楚这种语言模型带来的一些风险。它没有发布该模型供所有人使用,而是只向少数精选的人-企业家、研究人员和科技界的公众人物-授予了测试版访问权限。有人可能会怀疑这是不是正确的战略,特别是考虑到该公司在批准进入该模型方面的相当不透明的标准。也许让每个人都严格测试它会更好地告诉我们如何处理它。无论如何,类似的语言模型广泛可用只是个时间问题;事实上,利用基于GPT-3的开放服务(如AI地下城)来了解它能做些什么已经是可能的。GPT-3的容量范围确实令人印象深刻。这引起了许多评论家对它是否真的“理解”自然语言的争论,重新唤起了古老的哲学问题。1个。

像Eliza这样由麻省理工学院约瑟夫·魏森鲍姆(Joseph Weizenbaum)的团队在20世纪60年代开发的“好的老式人工智能”的日子已经一去不复返了。伊莱扎提供了对未来的初步预测。使用精心制作的“脚本”,伊莱扎可以通过抓住关键字,利用语言的表面特征,在与人类的书面对话中产生预先确定的答案。尽管Eliza是程序员创建的基本规则集,但它出人意料地有效地愚弄了一些人,让他们认为它实际上可以理解他们在说什么-以至于Weizenbaum觉得有必要写一本书,告诫人们不要将计算机程序拟人化。然而,与伊莱扎交谈足够长的时间可能会发现,这只是一篇鹦鹉般的人类散文。伊莱扎无法通过

在自然语言处理领域,一种古老的思想,即分布假设,指导了机器学习革命。根据这一观点,出现在相似上下文中的单词具有相似的含义。这意味着,原则上,算法可以简单地根据单词在大量文本中的分布来学习表示单词的含义。研究人员将这一见解应用到机器学习算法中,这些算法旨在通过预测给定上下文(出现单词的句子或词组)的遗漏单词的概率来学习单词的含义。

2013年,一种名为“word2vec”的算法在一大批新闻文章语料库上进行了训练。在训练过程中,语料库中的每个单词都被转化为高维向量空间中的向量(也称为嵌入)。出现在相似上下文中的单词最终在该空间中有相邻的嵌入。因此,两个词之间的嵌入距离(用它们之间夹角的余弦来衡量)直观地反映了对应词之间的语义相似度。两个词的意义越相关,它们在空间中的嵌入距离就越近。

经过训练,word2vec的嵌入似乎捕捉到了单词之间有趣的语义关系,这些关系可以通过对向量的简单算术运算来揭示。例如,“国王”的嵌入减去“男人”的嵌入加上“女人”的嵌入最接近于…的嵌入。“女王”(直觉上,“国王”之于“男人”,就像“女王”之于“女人”。)。

GPT-3比word2vec复杂得多。它基于2017年推出的名为“变形金刚”的人工神经网络结构。基于这种体系结构的神经网络可以在海量文本上进行“预训练”,以学习自然语言的一般属性。然后,可以简单地在较小的语料库上对它们进行“微调”,以提高特定任务的性能-例如,按主题对新闻文章进行分类、总结段落或预测给定输入之后的句子。虽然GPT-3没有给Transformer架构带来革命性的变化,但它是如此庞大,并且接受过如此多的数据训练,因此无需任何微调,它的性能就可以接近或超过以前微调过的型号。

魏森鲍姆过去担心人们将伊莱扎拟人化,但当谈到GPT-3的超凡能力时,他的担忧就变得更加紧迫。但是GPT-3明白它说的是什么吗?答案在很大程度上取决于我们在多大程度上融入了理解的概念。

GPT-3似乎捕捉到了令人印象深刻的大量关于世界的潜在知识,这些知识在其庞大的训练语料库中的单词分布中隐含地以统计模式编码。尽管如此,我们有充分的理由怀疑GPT-3以一种在功能上类似于人类单词表示的方式来代表它所使用的单词的含义。至少,孩子们通过一个相当不同的过程学习语言,将单词映射到概念,这些概念不仅嵌入了通过阅读课文获得的知识,而且至关重要的是嵌入了感知和探索世界的知识。

想想你是如何学会“狗”这个词的意思的。你大概不是仅仅通过阅读或听到关于狗的知识来学习的,更不用说记住“狗”这个词在你读到或听到的句子中的统计分布了,而是通过看到一只真正的狗或一只狗的照片,并被告知它是什么。你的词汇概念狗不仅仅编码了单词“狗”和其他单词(如“猫”)的意思之间的相似性。它嵌入了部分基于感性经验的关于狗的结构化知识,包括狗有四条腿、吃肉和吠叫-所有你可能观察到的东西。

这些天来,人类应该与人工智能融合的想法非常流行。它既是作为人类在工作场所避免被人工智能淘汰的一种方式,也是一种通向超级智能的途径。多读

GPT-3的单词嵌入并不是在感知上扎根于世界,这就解释了为什么它经常难以一致地回答关于熟悉物体的视觉和物理特征的常识问题。它也缺乏推动人类使用语言的意图、目标、信仰和欲望。它的话语没有“目的”。它在说话之前不会“思考”,因为这涉及到娱乐一个想法,并将词语与表达它的命题的组成部分相匹配。然而,它错综复杂和层次分明的内部表示方式允许它以一种通常感觉自然的方式组成句子,并在整个段落上显示单词之间关系的复杂建模。

如果GPT语言模型家族有一个座右铭,它可能是“假装直到你成功。”GPT-3当然擅长伪造人类的语义能力,可以毫不夸张地说,它在这个过程中获得了自己形式的语义能力。

在电视节目“西部世界”的第一季中,人类主人公参观了一个由超现实机器人组成的反乌托邦游乐园。面对一个像人类一样的安卓主机,他怀疑地问她是不是真的。她用一种神秘的声音回答道:“如果你看不出来,那有什么关系吗?”不管GPT-3是否像我们一样理解和使用语言,仅仅是它通常足够好就足以愚弄我们这一事实本身就具有引人入胜的-也可能是令人担忧的-含义。

这就是法兰克福的废话概念有用的地方。根据法兰克福的说法,胡言乱语是一种旨在说服人的言论,而不考虑事实。从这个意义上说,说谎者和说谎者之间有一个重要的区别:说谎者确实关心真相,因为他们想要隐藏它,而说谎者只关心说服他们的听众。重要的是,这并不意味着胡说八道的人永远不会说实话;事实上,优秀的胡说八道的人会将准确和不准确的信息无缝地编织在一起。正因为这个原因,正如法兰克福所说,“胡说八道是真理的大敌,而不是谎言。”

在其核心,GPT-3是一个人工的狗屎引擎-在这一点上出人意料地好。当然,模型并没有欺骗或说服的意图。但就像人类的胡说八道一样,它也没有内在的对真或假的担忧。虽然GPT-3的部分训练数据(特别是维基百科)包含了大部分准确的信息,而且虽然可以通过正确的提示将模型推向事实的准确性,但它绝对不是先知。如果没有独立的事实核查,就不能保证GPT-3所说的话,即使“听起来是对的”,也不能保证实际上是真的。这就是GPT-3在创作创造性小说时大放异彩的原因,在那里,事实的准确性不那么令人担忧。但是,GPT-3的输出与人类在语言产生中的担忧和动机足够不同,尽管表面上与人类的语言足够接近,但它们可能会在大范围内产生潜在的有害影响。

首先,像GPT-3这样的语言模型的大规模部署有可能淹没互联网,包括社交媒体上的在线互动,充满噪音。这超越了对恶意使用此类模型进行宣传的明显担忧。想象一下这样一个世界,Twitter或Reddit上的任何评论,或者Facebook上分享的任何新闻文章,都有相当大的可能性完全由一种对人类价值没有内在考虑的算法撰写。

这种情景已经不再是科幻小说了。就在几周前,由GPT-3撰写的一篇自助博客文章登上了热门新闻聚合网站Hacker News的榜首。2几乎没有人怀疑这场恶作剧。我们必须接受这样一个事实,即识别人类书写的句子不再是一项微不足道的任务。作为一个有害的副作用,真人之间的在线互动可能会因为挥之不去的人造废话的威胁而降级。在谈话中,人们可能不会真正承认他人的意图、目标、情感和论点,而是可以简单地使用简化的广告手段,指责自己的对话者是一台计算机。因此,人为的废话有可能破坏人类的在线言论自由。

GPT-3也引起了人们对教育系统中作文写作的未来的担忧。例如,我能够使用基于GPT-3的在线服务,以最小的努力就GPT-3本身写出一篇令人印象深刻的哲学论文(包括在几次试验中精挑细选)。正如我的几位同事评论的那样,这个成绩足够好,可以通过一年级本科生的作文,甚至可以得到相当不错的分数。英国《卫报》最近发表了一篇关于人工智能的专栏文章,文章是从GPT-3生成的几个输出中拼接出段落而产生的。正如他们所指出的,“编辑GPT-3的评论文章与编辑人类评论文章没有什么不同”--总的来说,结果是连贯的、相关的和写得很好的。苏

为了结束这篇文章,我促使GPT-3完成了Frankurt文章的第一句话。这是它得出的几个结果中的一个:“胡说八道并不总是错误的,尽管有时它可能是有害的。但是,即使它是无害的,它仍然会产生一些严重的后果。其中一个后果是,它使人们无法辨别什么是真的,什么是假的。“。当然,这更是胡说八道;但它听起来恰如其分地是真的。

拉斐尔·米利埃(Raphaël Millière)是哥伦比亚大学(Columbia University)科学与社会中心(Center For Science And Society)的社会与神经科学总统学者,在那里他从事认知科学哲学的研究。在Twitter@raphamilliere上关注他。

1.根据哲学家约翰·塞尔(John Searle)的“中国房间论证”,没有一台计算机可以通过运行程序来理解一种语言。因为这样的电脑就好比一位操作员在房间里按照一套英文指令操作中文符号,只根据符号的语法,以汉字作为输入,产生其他汉字作为输出,在这个过程中不懂中文。塞尔的论点最初是针对像伊莱扎这样的老式符号算法。它可以适应现代语言模型(但思维实验就更难构思了)。

无论如何,许多哲学家出于各种原因拒绝了塞尔的结论,包括认为房间里的人类操作员只是类似于计算机的一个特定组件(中央处理器,或CPU),以及一个完整的自然语言处理系统-不仅包括CPU,还包括它遵循的指令,以及包含其计算中间状态的内存-可以真正理解中文。尽管如此,那些拒绝Searle论证结论的人仍然有空间不同意哪个系统才有资格理解自然语言,以及一台专门运行GPT-3的计算机是否会达到标准。