哲学家们对GPT-3的看法

2020-07-31 06:24:27

在安妮特·齐默尔曼(Annette Zimmermann)客座编辑的这一期《哲学家》(The Philosophers On)中,九位哲学家探索了新发布的语言模型GPT-3提出的各种问题和问题。

GPT-3是OpenAI最近开发的一个强大的、1750亿参数的语言模型,一直在引发公众的辩论和争议。正如“麻省理工学院技术评论”(MIT Technology Review)所言:“OpenAI的新语言生成器GPT-3好得令人震惊--而且完全没有头脑。”科技界的一些人希望(也担心)GPT-3能让我们离假想的未来类似人类的高度复杂的人工通用智能(AGI)更近一步。与此同时,其他人(包括OpenAI自己的首席执行官)批评了GPT-3表面上接近AGI的说法,认为这些说法过于夸大了。

为什么要大肆炒作呢?事实证明,GPT-3与其他自然语言处理(NLP)系统不同,后者通常要处理对人类来说相对容易的事情:根据几条简单的指令和示例执行全新的语言任务。相反,NLP系统通常必须在大型文本语料库上进行预训练,然后进行微调,以便成功执行特定任务。相比之下,GPT-3不需要这样的微调:它似乎能够相当好地执行一系列任务,从创作小说、诗歌和新闻稿到功能代码,从音乐、笑话和技术手册,到“人类评估者很难与人类撰写的文章区分开来的新闻文章”。

哲学家系列包含关于当前感兴趣的问题的小组帖子,目的是展示哲学家(偶尔还有相关领域的学者)的仔细思考特征可以给流行的正在进行的对话带来什么。投稿人提交的不是完整的立场文件,而是可以作为进一步思考和讨论的提示的简短想法。

本期“哲学家谈”的撰稿人是Amanda Askell(OpenAI研究科学家)、David Chalmers(纽约大学哲学教授)、Justin Khoo(麻省理工学院哲学副教授)、Carlos Montemayor(旧金山州立大学哲学教授)、C.Thi Nguyen(犹他州大学哲学副教授)、Regina Rini(加拿大道德和社会认知哲学研究教授)、。香农·瓦勒(爱丁堡大学数据和人工智能伦理学的贝利·吉福德讲座教授)和安妮特·齐默尔曼(约克大学哲学与技术与工程的永久讲师;哈佛大学人权研究员)。

通过利用他们在心灵哲学、伦理学和政治哲学、认识论、美学、语言哲学和其他哲学子领域的各自研究兴趣,贡献者探索了人工智能哲学中的广泛主题:GPT-3实际上是如何工作的?人工智能能真正有意识吗?机器能“理解”吗?产生“语言”的能力是否意味着交际能力?人工智能能有创意吗?像GPT-3这样的技术是如何与社交世界互动的,在它所有的混乱和不公正的复杂性中?人工智能和机器学习可能会如何改变社会中的权力分配、我们的政治话语、我们的人际关系和我们的审美体验?语言在机器“智能”中扮演什么角色?综合考虑,我们应该对GPT-3和类似技术系统的潜在影响持多大的担忧和多大的乐观态度?

我感谢他们在很短的时间内就发表了如此激动人心的言论。我敦促你阅读他们的贡献,加入评论中的讨论(参见评论策略),并与你的朋友和同事广泛分享这篇文章。您可以向下滚动到帖子以查看它们,或单击以下列表中的标题:

GPT-3不包含重大新技术。它基本上是去年GPT-2的放大版本,而GPT-2本身就是使用深度学习的其他语言模型的放大版本。它们都是以文本为训练对象的大型人工神经网络,用来预测序列中的下一个单词可能是什么。Gpt-3只不过更大:更大100倍(98层和1750亿个参数),训练的数据要多得多(CommonCrawl,一个包含互联网大部分内容的数据库,以及一个巨大的图书图书馆和所有维基百科)。

然而,GPT-3立刻成为有史以来最有趣和最重要的人工智能系统之一。这不仅仅是因为它令人印象深刻的会话和写作能力。让GPT-3制作一个看起来像是对我的采访,这当然是令人不安的。到目前为止,GPT-3似乎比任何其他系统都更接近通过图灵测试(尽管“更接近”并不意味着“接近”)。但这基本上是GPT-2的超精致延伸,它已经产生了令人印象深刻的对话、故事和诗歌。

更值得注意的是,GPT-3显示出一般智力的迹象。以前的人工智能系统在游戏等专业领域表现良好,但跨域的通用智能似乎还很遥远。GPT-3在许多领域都显示出令人印象深刻的能力。在没有显式编程的情况下,它可以从几个示例中学习如何在运行中执行任务。它可以下国际象棋和围棋,尽管不是特别好。值得注意的是,只要几条非正式的指令,它就可以编写自己的计算机程序。它甚至可以设计机器学习模型。谢天谢地,它们没有GPT-3本身那么强大(奇点还没有出现)。

当我还是道格拉斯·霍夫施塔特(Douglas Hofstadter)人工智能实验室的研究生时,我们使用字母串类比谜题(如果ABC去ABD,iijjkk去什么地方?)。作为智力的试验台。我的同学梅勒妮·米切尔(Melanie Mitchell)设计了一个名为“模仿”(Copycat)的程序,它非常擅长解决这些难题。“模仿者”花了几年时间才写出来。现在,米切尔已经在同样的谜题上测试了GPT-3,并发现它在这些谜题上做得很好(例如,给出了答案iijjll)。它无论如何都不是完美的,也没有模仿的那么好,但在一个没有对这个领域进行微调的程序中,它的结果仍然是显著的。

GPT-3让我着迷的是,它暗示了一条通向人工通用智能(AGI)的潜在的无头脑之路。GPT-3的训练是盲目的。它只是分析语言的统计数据。但要真正做到这一点,需要一些一般智力的能力,而GPT-3则开发了这些能力的微光。它有很多局限性,它的工作充满了小故障和错误。但关键不在于GPT-3,而在于它将走向何方。考虑到从GPT-2到GPT-3的进展,谁知道我们能从GPT-4和更高的版本期待什么呢?

考虑到这一高涨预期的峰值,我们可以预期随后会出现一段幻灭的低谷。当然,语言模型所能做的事情有很多原则性的限制,例如涉及感知和行动。尽管如此,还是有可能将这些模型与克服这些限制的机制相结合。有一条清晰的道路可以探索十年前没有的地方。人类水平的AGI可能还需要几十年的时间,但时间线正在缩短。

GPT-3提出了许多哲学问题。有些是道德的。我们是否应该开发和部署GPT-3,因为它从它的培训中有很多偏见,它可能取代人类工人,它可以用于欺骗,它可能导致AGI?我将集中讨论心灵哲学中的一些问题。GPT-3真的是智能的吗?在什么意义上?它有意识吗?是特工吗?它明白吗?

这些问题没有简单的答案,需要认真分析GPT-3,认真分析智力和其他概念是什么。在第一次通过时,我最倾向于对第一次给出肯定的答案。GPT-3的能力表明至少是一种弱形式的智力,至少如果智力是通过行为反应来衡量的话。

至于意识,我对有302个神经元的蠕虫是有意识的这个想法持开放态度,所以我对有1750亿个参数的GPT-3也是有意识的想法持开放态度。我希望任何意识都会比我们的简单得多,但这在很大程度上取决于在这1750亿个参数中进行的是什么类型的处理。

GPT-3看起来不太像一个特工。例如,除了完成文本之外,它似乎没有什么目标或偏好。它更像是一条变色龙,可以形成许多不同的介质。或者它可能是一个引擎,可以在引擎盖下用来驱动许多特工。但也许正是这些系统才是我们应该评估的机构、意识等等。

最大的问题是理解。即使人们对人工智能系统的理解总体上是开放的,GPT-3的情况也会出现障碍。它做了许多需要人类理解的事情,但它从来没有真正将自己的语言与感知和行动联系起来。一个非实体的纯语言系统真的可以说是理解的吗?仅仅通过统计联系,它真的能理解快乐和愤怒吗?或者它只是在它不理解的符号之间建立联系?

我怀疑GPT-3和它的后继者将迫使我们碎片化和重新设计我们的理解概念来回答这些问题。这里讨论的其他概念也是如此。随着人工智能的进步,到今天结束时,很多东西都会支离破碎。无论在智力上还是在实践上,我们都需要小心处理。

GPT-3最近激发了许多技术专家的想象力,他们对在各个领域生成类似人类的文本的系统的实际应用感到兴奋。但是GPT-3也提出了一些有趣的哲学问题。这种语言建模方法的局限性是什么?说这些模型概括或理解是什么意思?我们应该如何评估大型语言模型的能力?

GPT-3是一种语言模型,尽管没有接受过任何特定领域的培训,但它在各种领域都能产生令人印象深刻的输出。GPT-3通过根据之前看到的内容预测下一个单词来生成文本。该模型是在非常大量的文本数据上进行训练的:来自互联网和书籍的数千亿个单词。

这个模型本身也非常大:它有1750亿个参数。(第二大的基于变压器的语言模型是170亿个参数模型。)。GPT-3的体系结构类似于GPT-2,但要大得多,即更多可训练的参数,因此最好将其视为过去几年算法扩展的实验。

GPT-3训练数据的多样性使其具有令人印象深刻的快速适应新任务的能力。例如,我促使GPT-3给我讲了一个有趣的小故事,讲的是当乔治·坎托决定去希尔伯特的酒店时会发生什么。以下是一个特别有趣的(尽管必须承认是精挑细选的)输出:

较大的模型可以捕捉到他们所训练的数据的更多复杂性,并且可以将其应用于他们没有接受过专门训练的任务。模型不是针对问题进行微调,而是给出任务的说明和一些示例,并期望仅基于此来确定要做什么。这被称为“上下文学习”,因为模型在其“上下文”(我们要求模型完成的单词串)中拾取模式。

关于GPT-3的有趣之处在于,它在跨一系列任务的情境学习方面做得非常好。有时,它可以在以前从未见过的任务上达到与最好的微调模型相媲美的水平。例如,当只给出一个任务示例时,它在TriviaQA数据集上实现了最先进的性能。

微调就像死记硬背准备考试一样。这样做的好处是,你在那一次考试中的表现要好得多,但最终你可能会在其他人身上表现得更差。情景学习就像是在看完说明和一些样题后参加考试。如果不死记硬背,GPT-3可能达不到某个特定考试的成绩,但它可以漫步到一系列的考场里,光看试卷就能表现得相当好。它很好地执行了很多任务,而不是非常好地执行单个任务。

在几乎没有上下文的情况下,该模型还可以产生令人印象深刻的输出。考虑一下我用“意识的难题是”提示模型时得到的第一个完成:

它还可以将它在训练数据中看到的模式应用到它以前从未见过的任务上。考虑为以下任务提供的第一个输出GPT-3(GPT-3的文本突出显示):

GPT-3以前不太可能遇到ROISH,因为它是我编造的语言。但我们已经清楚地看到了足够多的这类模式来识别规则。

我们能知道在上面的示例中,GPT-3是泛化到一个新任务,还是仅仅是将它已经看到的东西组合在一起呢?这两种行为之间有意义的区别吗?我开始怀疑这些概念是不是很容易拆分。

尽管GPT-3在几乎没有信息的情况下执行新任务的能力令人印象深刻,但在大多数任务中,GPT-3远远达不到人类的水平。事实上,在许多任务上,它的表现都不能超过最好的微调模型。与其他任务相比,GPT-3的能力在某些任务上的伸缩性也较差。例如,它在自然语言推理任务中苦苦挣扎,这项任务涉及识别一条语句是否与一段文本相关联或相矛盾。这可能是因为很难让模型在短的上下文窗口内理解这项任务(当模型理解所询问的内容,但不理解所询问的内容时,它可能知道如何执行任务)。

GPT-3也缺乏跨上下文的一致身份或信念状态。它已经识别了它所训练的数据中的模式,但它所训练的数据是由许多不同的代理生成的。因此,如果你提示它“嗨,我是莎拉,我喜欢科学”,它就会自称是莎拉,并对科学赞不绝口。如果你提示它“嗨,我是鲍勃,我认为科学都是胡说八道”,它会把自己称为鲍勃,并对科学进行负面评论。

如果看到哲学家预测像GPT-3这样的模型能做什么,不能做什么,我会很兴奋。寻找对人类来说相对容易但语言模型表现不佳的任务,例如简单的推理任务,将特别有趣。

哲学家还可以帮助澄清关于这些模型局限性的讨论。如果不更准确地解释理解是什么,很难说GPT-3是否能理解语言,也很难用某种方法来区分具有这种属性的模型和没有这种属性的模型。语言模型必须能够引用世界才能理解吗?为了做到这一点,他们是否需要访问文本以外的数据?

我们可能还想问一些关于机器学习模型的道德状况的问题。在非人类动物中,我们使用有关神经系统结构和进化的行为线索和信息作为它们是否有知觉的指示器。如果有的话,我们会把什么作为机器学习模型中感知的指示器呢?问这个问题可能为时过早,但过早考虑可能没有什么坏处,而考虑得太晚可能会有很大危害。

GPT-3不是某种人类级别的人工智能,但它确实证明了当我们放大语言模型时会发生有趣的事情。我认为在机器学习和哲学的交叉点上有很多容易摘到的果实,其中一些在GPT-3这样的模型中得到了突出的体现。我希望一些阅读这篇文章的人会同意!

作为结束,下面是我询问如何结束本文时生成的第二个输出GPT-3:

与GPT-3的互动令人毛骨悚然。语言给人的感觉是自然和熟悉的,因为我们很容易识别或区分具体的人,他们的言辞和用词所蕴含的社会和文化含义,以及他们基于共同目标或价值观的交际意图。这种交际同步性对于人类语言来说是必不可少的。当然,有了互联网和社交媒体,我们都已经习惯了一种更“远”和更异步的沟通方式。我们对对话者的熟悉程度要低得多,现在已经习惯了某种在线匿名方式。在这些半匿名平台中,辱骂和不可靠的语言非常普遍。尽管如此,我们重视与谈话另一端的人交谈。这个价值建立在信任、背景知识和文化共同点的基础上。GPT-3的交付看起来像是语言,但如果没有这种类型的信任,它们就会感觉不自然,并可能具有操纵性。

语言交际是符号编码的,其语义可能性可以用复杂性和信息量来量化。这种基于句法和算法性质的严格正式的语言研究方法使得艾伦·图灵(1950)提出了模仿游戏。语言和智力密切相关,图灵设想了一个临界点,在这个临界点上,性能不再被认为仅仅是机器的输出。我们都熟悉图灵测试。它提出的问题很简单:如果在与两个对话者的匿名对话中,其中一个被系统地评为反应更灵敏、更聪明,那么就应该将智能归因于这个对话者,即使对话者原来是一台机器。为什么一台能够准确回答问题而不是幸运的机器不会比烤面包机更聪明呢?

GPT-3焦虑是基于这样一种可能性,即原则上,将我们与其他物种区分开来的东西,以及我们认为人类智力的顶峰,即我们的语言能力,都可以在我们认为不如动物的机器中找到。图灵的临界点直面我们以人类为中心的对各种智能的厌恶--外星人的、人工的和动物的。我们人类有意识的理解和把握意义的能力不是成功沟通所必需的吗?如果一台机器能够比普通人回答问题更好,甚至更好,人们会想知道智能和人类语言之间到底是什么关系。GPT-3是朝着更精确地理解这种关系迈出的一步。

但在我们到达图灵的临界点之前,前面还有一条漫长而不确定的道路。一个关键问题与语言的目的有关。虽然语言交流当然包括以可靠和系统的方式对语义信息进行编码,但语言显然远远不止于此。语言满足表征需要,而表征需要依赖于环境才能得到适当的满足,只有具有认知能力的主体嵌入到环境中,才会有这些需要并关心他们的满足。在社会层面上,语言从根本上涉及到对环境、相互期望和行为模式等方面的共同关注。动物王国中的交流--我们语言技能的基础--在很大程度上依赖于作为社会信任基础的注意力能力。因此,注意力是智能语言系统的重要组成部分(Mindt and Montemayor,2020)。像GPT-3这样的人工智能还远远没有发展出真正交流所需的那种敏感和选择性的注意程序。

在人工智能设计中突出注意力之前,偏见的再现和人工智能的高风险或奇怪的交付仍将是问题所在。但是像GPT-3p这样令人印象深刻的项目。

.