深度学习的三位先驱在 ACM 通讯杂志 7 月刊上发表的一篇论文中指出,深度神经网络将在没有符号人工智能帮助的情况下克服它们的缺点。 2018 年图灵奖获得者 Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun 在他们的论文中解释了深度学习当前面临的挑战,以及它与人类和动物学习的不同之处。他们还探索了该领域的最新进展,这些进展可能为深度学习研究的未来方向提供蓝图。这篇题为“人工智能深度学习”的论文设想了一个未来,深度学习模型可以在很少或不需要人类帮助的情况下学习,灵活适应环境的变化,并且可以解决广泛的反射和认知问题。深度学习经常被比作人类和动物的大脑。然而,过去几年已经证明,作为深度学习模型中使用的主要组成部分的人工神经网络缺乏其生物对应物的效率、灵活性和多功能性。 Bengio、Hinton 和 LeCun 在他们的论文中承认了这些缺点。 “监督学习虽然在各种任务中取得成功,但通常需要大量人工标记的数据。同样,当强化学习仅基于奖励时,它需要大量的交互,”他们写道。监督学习是机器学习算法的一个流行子集,其中模型带有标记的示例,例如图像列表及其相应的内容。该模型经过训练,可以在具有相似标签的示例中找到重复出现的模式。然后使用学习到的模式将新示例与正确的标签相关联。监督学习对于有大量可用标记示例的问题特别有用。强化学习是机器学习的另一个分支,其中“代理”学习最大化环境中的“奖励”。环境可以像井字棋游戏板一样简单,其中 AI 玩家因排列三个 X 或 O 而获得奖励,也可以像城市环境一样复杂,其中自动驾驶汽车因避免碰撞、服从而获得奖励交通规则,到达目的地。代理首先采取随机行动。当它从环境中接收反馈时,它会找到提供更好奖励的动作序列。
正如科学家们所承认的,在这两种情况下,机器学习模型都需要大量劳动力。标记数据集很难获得,尤其是在没有公开、开源数据集的专业领域,这意味着它们需要人工注释者的艰苦而昂贵的劳动。复杂的强化学习模型需要大量的计算资源来运行大量的训练集,这使得它们可供少数非常富有的 AI 实验室和科技公司使用。 Bengio、Hinton 和 LeCun 也承认,当前的深度学习系统在它们可以解决的问题范围内仍然有限。他们在专门的任务上表现良好,但“在他们接受过培训的狭窄领域之外往往很脆弱。”通常,轻微的变化(例如图像中的一些修改像素或环境中的规则的微小变化)都会导致深度学习系统误入歧途。深度学习系统的脆弱性很大程度上是由于机器学习模型基于“独立同分布”(iid)假设,即假设真实世界数据与训练数据具有相同的分布。 iid 还假设观察不会相互影响(例如,硬币或掷骰子是相互独立的)。 “从早期开始,机器学习的理论家就关注 iid 假设……不幸的是,这在现实世界中并不是一个现实的假设,”科学家们写道。由于不同的因素,现实世界的设置不断变化,如果没有因果模型,其中许多实际上是不可能表示的。智能代理必须不断地观察他们的环境和其他代理并从中学习,并且他们必须使自己的行为适应变化。科学家们写道:“当今最好的人工智能系统的性能在从实验室到现场时往往会受到影响。”当应用于计算机视觉和自然语言处理等领域时,iid 假设变得更加脆弱,代理必须处理高熵环境。目前,许多研究人员和公司试图通过在更多数据上训练神经网络来克服深度学习的局限性,希望更大的数据集能够覆盖更广泛的分布并减少现实世界中失败的机会。
人工智能科学家的最终目标是复制人类拥有的一般智能。而且我们知道人类不会受到当前深度学习系统的问题的困扰。 Bengio、Hinton 和 LeCun 在他们的论文中写道:“人类和动物似乎能够以独立于任务的方式主要通过观察来学习大量关于世界的背景知识。” “这些知识巩固了常识,让人类只需几个小时的练习就能学习复杂的任务,比如驾驶。”在论文的其他地方,科学家们指出,“[H] 人类可以以一种不同于普通 iid 泛化的方式进行泛化:我们可以正确解释现有概念的新组合,即使这些组合在我们的训练下极不可能分布,只要它们尊重我们已经学到的高级句法和语义模式。”科学家们提供了各种解决方案来缩小人工智能和人类智能之间的差距。在过去几年中广泛讨论的一种方法是将神经网络与经典符号系统相结合的混合人工智能。符号操作是人类推理世界能力的一个非常重要的部分。这也是深度学习系统面临的巨大挑战之一。 Bengio、Hinton 和 LeCun 不相信混合神经网络和符号 AI。在 ACM 论文随附的一段视频中,Bengio 说:“有些人认为有些问题是神经网络无法解决的,我们必须求助于经典的人工智能、符号方法。但我们的工作表明并非如此。”深度学习先驱认为,更好的神经网络架构最终会导致人类和动物智能的方方面面,包括符号操作、推理、因果推理和常识。 Bengio、Hinton 和 LeCun 在他们的论文中强调了深度学习的最新进展,这些进展有助于在深度学习困难的一些领域取得进展。
一个例子是 Transformer,这是一种神经网络架构,它一直是 OpenAI 的 GPT-3 和谷歌的 Meena 等语言模型的核心。 Transformers 的好处之一是它们能够在不需要标记数据的情况下进行学习。 Transformers 可以通过无监督学习来开发表征,然后他们可以应用这些表征来填补不完整句子的空白或在收到提示后生成连贯的文本。最近,研究人员表明 Transformers 也可以应用于计算机视觉任务。当与卷积神经网络结合时,transformers 可以预测掩蔽区域的内容。一种更有前途的技术是对比学习,它试图找到缺失区域的向量表示,而不是预测精确的像素值。这是一种有趣的方法,似乎更接近于人类的思维方式。当我们看到如下图所示的图像时,我们可能无法想象出缺失部分的照片般逼真的描绘,但我们的大脑可以对那些蒙版区域中可能发生的情况(例如、门、窗等)。 (我自己的观察:这可以与该领域的其他研究很好地结合起来,这些研究旨在将神经网络中的向量表示与现实世界的概念保持一致。)推动使神经网络减少对人类标记数据的依赖适合自我的讨论- 监督学习,LeCun 正在研究的一个概念。这篇论文还提到了“系统 2 深度学习”,这个词是从诺贝尔奖获得者心理学家 Daniel Kahneman 那里借来的。系统 2 解释了需要有意识思考的大脑功能,包括符号操作、推理、多步计划和解决复杂的数学问题。 System 2 深度学习仍处于早期阶段,但如果它成为现实,它可以解决神经网络的一些关键问题,包括分布外泛化、因果推理、鲁棒迁移学习和符号操作。科学家们还支持“神经网络为对象及其部分分配内在参考框架并通过使用几何关系识别对象”的工作。这是对“胶囊网络”的引用,这是 Hinton 在过去几年中一直关注的研究领域。胶囊网络旨在将神经网络从检测图像中的特征升级到检测对象、它们的物理特性以及它们之间的层次关系。胶囊网络可以提供具有“直觉物理学”的深度学习,这种能力使人类和动物能够理解三维环境。 “就我们对如何使神经网络真正有效的理解而言,还有很长的路要走。我们希望会有全新的想法,”Hinton 告诉 ACM。
本文最初由 Ben Dickson 在 TechTalks 上发表,TechTalks 是一份研究技术趋势、它们如何影响我们的生活和经营方式以及它们解决的问题的出版物。但我们也讨论了技术的邪恶一面、新技术的阴暗影响以及我们需要注意的问题。你可以在这里阅读原文。