现代人工智能革命始于一场鲜为人知的研究竞赛。那是2012年,也就是一年一度的ImageNet比赛的第三个年头,比赛挑战团队建立能够识别1000个物体的计算机视觉系统,从动物到风景再到人。
在最初的两年里,最好的团队甚至没有达到75%的准确率。但在第三次实验中,一群三名研究人员--一名教授和他的学生--突然越过了这个天花板。他们以惊人的10.8个百分点赢得了比赛。这位教授就是杰弗里·辛顿,他们使用的技术叫做深度学习。
自20世纪80年代以来,辛顿实际上一直在研究深度学习,但由于缺乏数据和计算能力,其有效性一直受到限制。他对这项技术的坚定信念最终带来了巨大的回报。在ImageNet比赛的第四年,几乎每个团队都在使用深度学习,并实现了奇迹般的准确率增长。很快,足够深入的学习被应用到图像识别以外的任务中,也应用到了广泛的行业中。
去年,由于他对该领域的基础性贡献,辛顿与其他人工智能先驱严乐村(Yann LeCun)和约书亚·本吉奥(Yoshua Bengio)一起被授予图灵奖。10月20日,在“麻省理工学院技术评论”(MIT Technology Review)的年度EMTech MIT会议上,我与他谈到了该领域的现状以及他认为该领域下一步的发展方向。
你认为深度学习就足以复制人类的所有智慧。你怎么这么肯定?
我确实相信深度学习将能够做任何事情,但我确实认为将会有相当多的概念突破。例如,2017年,Ashish Vaswani等人。介绍了转换器,它派生出非常好的表示词义的向量。这是一个观念上的突破。现在几乎所有最好的自然语言处理都使用它。我们需要更多这样的突破。
如果我们有了这些突破,我们是否能够通过深度学习接近所有人类的智能?
是。特别是在如何获得大的神经活动矢量来实现像理性这样的东西方面的突破。但我们也需要大规模扩大规模。人脑大约有100万亿个参数,或称突触。我们现在所说的非常大的型号,像GPT-3,有1750亿。它比大脑小一千倍。GPT-3现在可以生成看起来相当合理的文本,而且与大脑相比仍然很小。
两者都有。在计算机科学中发生的事情和人身上发生的事情之间存在着某种差异。与他们获得的数据量相比,人们有大量的参数。神经网络令人惊讶地擅长处理相当少量的数据,具有大量的参数,但人的能力更强。
该领域的许多人认为,常识是下一个需要攻克的重大能力。你同意吗?
我同意这是非常重要的事情之一。我也认为运动控制非常重要,而深层神经网络现在正变得越来越擅长这一点。特别值得一提的是,谷歌最近的一些工作表明,你可以进行精细的运动控制,并将其与语言相结合,这样你就可以打开抽屉,拿出一个积木,系统可以用自然语言告诉你它在做什么。
对于像GPT-3这样生成这个精彩文本的东西来说,很明显它必须理解很多东西才能生成这个文本,但是它理解多少还不是很清楚。但如果某个东西打开抽屉拿出一块积木说,“我刚打开抽屉拿出一块积木”,很难说它不明白它在做什么。
人工智能领域一直将人脑作为其最大的灵感来源,不同的人工智能方法源于认知科学中的不同理论。你认为大脑实际上是通过构建外部世界的表征来理解它的,还是这只是一种有用的思考方式?
很久以前,在认知科学中,两个学派之间存在着一场争论。其中一个是由斯蒂芬·科斯林(Stephen Kosslyn)领导的,他相信当你在脑海中操纵视觉图像时,你得到的是一组像素,你在四处移动它们。另一种学派更符合传统的人工智能。它说,“不,不,那是胡说八道。它是分层的、结构化的描述。你的头脑里有一个象征性的结构,这就是你在操纵的。“。
我想他们都在犯同样的错误。科斯林认为我们操纵像素是因为外部图像是由像素组成的,这是我们理解的一种表现形式。符号人们认为我们操纵了符号,因为我们也用符号来表示事物,这是我们理解的一种表示。我认为这同样是错误的。大脑内部是这些神经活动的大载体。
有一些人仍然认为符号表示是人工智能的方法之一。
绝对一点儿没错。我有像赫克托·莱韦斯克这样的好朋友,他非常相信象征性的方法,并在这方面做了大量的工作。我不同意他的观点,但象征性的方法是完全合理的尝试。但我的猜测是,最终,我们会意识到符号只是存在于外部世界,我们对大向量进行内部运算。
你认为你对人工智能未来最逆向的观点是什么?
嗯,我的问题是我有这些相反的观点,然后五年后,它们就成了主流。我上世纪80年代的大多数逆向观点现在都被广泛接受。现在很难找到不同意他们意见的人。所以,是的,我的逆向观点在某种程度上被削弱了。