图灵测试已过时。 现在该为AI建立新的晴雨表了

2020-12-30 06:19:30

自艾伦·图灵(Alan Turing)发表论文以介绍“图灵测试”的概念以回应“机器可以思考吗?”这一问题以来,已经是70年了。该测试的目的是确定一台机器是否可以表现出与人类没有区别的对话行为。 Turing预测,到2000年,在模拟游戏中,从评估者中隐藏了正在做出响应的人(人类或AI),普通人将AI与人类区分开的机会不到70%。

作为一个行业,为什么我们仍无法实现这一目标,比过去的20年还要多?我相信Turing提出的目标对于像我这样的AI科学家来说并不是一个有用的目标。图灵测试充满局限性,其中一些图灵本人在开创性论文中对此进行了辩论。如今,人工智能已无处不在地集成到我们的电话,汽车和房屋中,人们越来越在乎与计算机的交互是有用,无缝和透明的,并且人们无法区分机器这一概念。因此,是时候退役已经成为七十年灵感的绝杀了,并提出了一个新的挑战,同样激发着研究人员和从业人员的挑战。

在引入图灵测试之后的几年中,图灵测试成为了学术界的AI北极星。 60年代和70年代最早的聊天机器人ELIZA和PARRY以通过测试为中心。直到2014年,聊天机器人Eugene Goostman宣称它已经通过了图灵测试,并欺骗了33%的判断是人类。但是,正如其他人指出的那样,愚弄30%的法官的门槛是任意的,即使到那时,胜利对某些人还是过时的。

尽管如此,图灵测试仍在继续引起人们的想象。 OpenAI的Generative Pre-trained Transformer 3(GPT-3)语言模型在其击败Turing测试的潜力方面引起了人们的关注。同样,记者,商业领袖和其他观察员仍然问我:“ Alexa何时通过图灵测试?”当然,图灵测试是衡量Alexa智力的一种方法,但是以这种方式衡量Alexa的智力是否必然且相关?

为了回答这个问题,让我们回到图灵第一次提出论文的时候。 1950年,第一台商用计算机尚未售出,光缆的基础工作再也不会发布四年了,并且AI领域还没有正式建立,那就是1956年。现在,我们有了与Apollo 11相比,我们手机上的计算能力高出100,000倍,再加上云计算和高带宽连接,人工智能现在可以在几秒钟内根据大量数据做出决策。

尽管Turing的最初愿景继续鼓舞人心,但将其测试解释为AI进步的终极标志受到其引入时代的限制。首先,图灵测试几乎没有打折AI的类似计算机的快速计算和信息查找属性,这些功能是现代AI最有效的。对欺骗人类的强调意味着,要使AI通过图灵测试,它必须在回答“诸如您知道3434756的立方根是什么?”之类的问题时注入停顿。或者,“西雅图到波士顿有多远?”实际上,AI会立即知道这些答案,而暂停使其答案听起来更人性化并不是最好地利用其技能。此外,图灵测试没有考虑到AI使用传感器来听,看和感觉外界的能力日益增强。相反,它仅限于文本。

为了使AI在今天变得更加有用,这些系统需要有效地完成我们的日常任务。如果您要让AI助手关闭车库灯,则无需进行对话。相反,您希望它满足该请求并通过简单的确认(“确定”或“完成”)通知您。即使您与AI助手就热门话题进行广泛对话或向孩子朗读故事,您仍然想知道它是AI而非人类。实际上,假装为人类来“欺骗”用户会构成真正的风险。想象一下反乌托邦的可能性,就像我们已经开始看到的那样,机器人在播撒错误信息以及出现大量假货。

我们的抱负应该不是建立使AI与人类难以区分的迷恋,而是要建立以公平和包容的方式增强人类智力并改善我们日常生活的AI。一个有价值的基本目标是使AI展现类似于人类的智力属性(包括常识,自我监督和语言能力),并结合诸如快速搜索,记忆调用和代表您完成任务之类的机器效率。最终结果是学习和完成各种任务,并适应新的情况,这远远超出了普通人的能力。

该重点为当前对AI真正重要的领域的研究提供了信息-感官理解,对话,广泛而深入的知识,有效的学习,决策推理以及消除任何不当偏见或偏见(即公平)。这些领域的进展可以通过多种方式衡量。一种方法是将挑战分解为组成任务。例如,Kaggle的“抽象与推理挑战”专注于解决AI从未见过的推理任务。另一种方法是为人机交互设计大规模的现实世界挑战,例如Alexa Prize Socialbot Grand Challenge,这是一场针对大学生对话式AI的竞赛。

实际上,当我们在2016年启动Alexa奖时,我们就如何评估竞争性“社交机器人”进行了激烈的辩论。我们是否在试图说服人们,社交机器人是人类,所以部署了图灵测试版本?或者,我们是否在努力使AI值得自然交流,以促进学习,提供娱乐或只是分散注意力呢?

我们发现了一个要求社交机器人与人类进行20分钟的连贯对话的主题,涉及娱乐,体育,政治和技术等广泛的热门话题。在进入决赛之前的开发阶段,客户会对机器人是否愿意与机器人进行对话进行评分。在决赛中,独立的人类裁判会评估连贯性和自然性,并以5分制评分。如果有任何社交机器人在平均20分钟的时间内进行交流并且得分达到4.0或更高,那么它将满足挑战。尽管尚未解决严峻的挑战,但这种方法正在指导AI开发,该开发具有基于深度学习的神经方法,具有人类般的对话能力。它优先考虑允许AI在适当情况下表现出幽默感和同理心的方法,而所有这些方法都不会假装是人类。

像Alexa这样的AI在我们的日常生活中被广泛采用,这是衡量AI进步的另一个难得的机会。尽管这些AI服务依赖于类人的会话技能来完成简单的交易(例如设置警报)和复杂的任务(例如计划一个周末),但要最大限度地发挥效用,它们会从会话式AI转变为“环境式AI”在需要时回答您的请求,预测您的需求,在不需要时淡入背景。例如,Alexa可以检测到玻璃破碎的声音,并提醒您采取措施。如果您在睡觉时设置了闹钟,则建议您关闭楼下已连接的连接照明灯。此类AI的另一个方面是,它们需要成为大量且不断增加的任务的专家,这只有通过更通用的学习能力而非特定于任务的智能才能实现。因此,在接下来的十年及以后的时间里,AI服务的实用性以及在环境设备上的对话和主动帮助功能是一项值得测试的测试。

所有这些都不是Tur毁图灵的原始视野-图灵的“模仿游戏”是作为一种思想实验而设计的,而不是作为对有用AI的最终测试。但是,现在是时候消除图灵测试,并从艾伦·图灵的大胆愿景中获得启发,以加快构建旨在帮助人类的AI的进展。