DeepMind的首席研究科学家David Silver在AlphaGo,AlphaZero和MuZero上的研究将强化学习应用于现实世界中的问题等

2020-12-27 07:34:03

戴维·西尔弗(David Silver)负责近年来的几次引人注目的人工智能演示,并致力于在上个伟大的AI Winter大会之后重新唤起人们对该领域的兴趣。

在Alphabet的子公司DeepMind,Silver领导了技术的开发,这些技术可以使计算机自己学习如何解决曾经棘手的问题。

最著名的是AlphaGo,该程序于2017年发布,该程序自学了玩古代棋盘游戏Go到大师级别。 Go太微妙和本能,无法使用常规编程来驯服,但是AlphaGo学会了通过实践和积极奖励来玩游戏-一种称为“强化学习”的AI技术。

在2018年,Silver和同事开发了该程序的更通用版本,称为AlphaZero,能够学习下棋和将棋以及围棋的专家。然后,在2019年11月,DeepMind发布了MuZero的详细信息,该版本可学习玩这些游戏和其他游戏-但至关重要的是,无需事先了解规则。

Silver与伦敦的Zoom资深作家Will Knight会面,讨论了MuZero,强化学习以及在AI方面取得进一步进步的秘密。此笔录已过编辑,以确保篇幅和清晰度。

连线:您的MuZero作品发表在《自然》杂志上。对于没有经验的人,告诉我们为什么它很重要。

戴维·西尔弗(David Silver):与MuZero相比,向前迈出的一大步是我们不告诉环境动态。它必须以一种仍然可以让自己提前计划并弄清楚什么将是最有效的策略的方式自己弄清楚这一点。我们希望有在现实世界中可以工作的算法,而现实世界却是复杂,混乱且未知的。因此,您不能像国际象棋一样向前看。您,您必须学习世界如何运转。

一些观察者指出,MuZero,AlphaGo和AlphaZero并非真正从头开始。他们使用聪明人制作的算法来学习如何执行特定任务。这会错过重点吗?

我认为确实如此。您永远不会真正拥有一片空白。机器学习中甚至有一个定理—非自由午餐定理—说您必须从某件事开始,否则就无所适从。但是在这种情况下,板岩是空白的。我们正在为它提供一个神经网络,而神经网络必须自己从游戏或得分的得失反馈中了解如何理解世界。

人们接受的一件事是,我们告诉MuZero在每种情况下的合法举动。但是,如果您进行强化学习,而这仅仅是在世界未知的情况下试图解决问题的方法,通常会假设您被告知可以做什么。您必须告诉代理它有哪些选择,然后再选择其中之一。

您可能会批评我们到目前为止所做的事情。现实世界非常复杂,我们还没有建立像人类大脑那样可以适应所有这些东西的东西。因此,这是一个公平的批评。但是我认为MuZero确实是在为自己寻找如何建立模型并仅从最初的原理对其进行理解的方法。

DeepMind最近宣布,已利用AlphaZero背后的技术解决了一个重要的实际问题-预测蛋白质将折叠成的形状。您认为MuZero将在哪里产生第一个重大影响?

当然,我们正在寻找将MuZero应用到现实世界中的方法,并且有一些令人鼓舞的初步结果。举一个具体的例子,互联网上的流量主要是视频,而一个开放的大问题是如何尽可能有效地压缩这些视频。您可以认为这是一个强化学习问题,因为有许多非常复杂的程序可以压缩视频,但是接下来看到的是未知的。但是,当您将诸如MuZero之类的东西插入其中时,就节省大量数据而言,我们的初步结果看起来很有希望,也许大约占压缩视频所用位的5%。

“可能有一种非常清晰和简单的方式来考虑所有智能,这就是它是一个目标优化系统。”

我认为有一个系统可以帮助您作为用户尽可能有效地实现您的目标。一个真正强大的系统,可以看到您所看到的所有事物,具有与您相同的感觉,能够帮助您实现人生目标。我认为那是非常重要的。从长远来看,另一个变革性的东西可以提供个性化的医疗保健解决方案。有一些隐私和道德问题需要解决,但是它将具有巨大的变革价值;它将改变医学的面貌和人们的生活质量。

我不想在上面加上时间表,但是我想说人类可以实现的一切,我最终认为机器可以实现。大脑是一个计算过程,我认为那里没有任何魔术。

我们能否达到可以理解和实现像人脑一样有效和强大的算法的地步?好吧,我不知道时间表是多少。但是我认为旅途是令人兴奋的。我们应该以实现这一目标为目标。踏上这一旅程的第一步是尝试了解获得智慧甚至意味着什么?我们在解决智力方面试图解决什么问题?

除了实际用途之外,您是否有信心可以从象棋和Atari等精通游戏到真正的智力?是什么让您认为强化学习将导致对机器具有常识的理解?

有一个假设,我们称其为“报酬足够”假设,该假设说,智力的基本过程可能与寻求最大化其报酬的系统一样简单,而试图实现目标并尝试最大化报酬足以产生我们在自然智能中看到的所有智能属性。这是一个假设,我们不知道它是否正确,但这为研究提供了方向。

如果我们具体地理解常识,那么“报酬足够”假设就很好地说明了这一点,如果常识对系统有用,则意味着它实际上应该帮助它更好地实现其目标。

听起来您认为您的专长领域-强化学习-在某种意义上是理解或“解决”智力的基础。是对的吗?

我真的认为这是非常必要的。我认为最大的问题是,这是真的吗?因为它肯定会面对很多人如何看待AI,这就是情报中涉及到的这种极其复杂的机制集合,并且每个机制都有其自己要解决或解决的种种问题。自己的特殊工作方式,或者甚至根本没有针对常识之类的明确问题定义。这个理论说,不,实际上可能存在着一种非常清晰,简单的方式来考虑所有智能,这就是它是一个目标优化系统,并且如果我们真的找到了一种优化目标的方法,好吧,那么所有其他这些事情将在该过程中显现出来。

强化学习已经存在了数十年,但有一段时间似乎是死胡同。实际上,您的一位老顾问告诉我,她试图劝阻您不要这样做。你为什么不理her她并继续前进?

许多人将强化学习视为您可以用来解决我们在AI中需要解决的许多问题的众多锤子之一。我不这样看。我将强化学习视为整体。如果我们想尝试并尽可能地描述智力,我认为强化学习从本质上描述了我们对智力的真正理解。当您开始以这种方式看到它时,我该如何处理呢?如果这确实是最接近我们的智能含义的事物,那么,如果我们解决它,我们将予以破解。

如果您看一下我所做的工作,那么我一直都在努力解决这个问题。解决诸如Go之类的问题时,在解决它时,我们了解了智能在此过程中意味着什么。您可以将强化学习视为使代理能够获得所有其他能力(它需要的所有其他智能)的能力。您会在AlphaGo之类的产品中看到一点点,我们要求它做的就是赢得比赛,但它了解了人们过去曾经拥有专门子系统的所有这些东西-比赛结束和开局。

DeepMind是否有压力进行另一个大型展示,例如AlphaGo?你有感觉吗?

这是一个很好的问题。我觉得我们处于非常特权的位置,因为我们在位置上,资金上都是安全的,所有这些事情都是非常非常安全的。

试图建立一个新的大型示范的唯一压力是朝着通用情报迈进的动力。当您在初创企业中尝试获得资金时,或者在学术界中尝试获得补助金等时,这是您没有的真正特权。

强大的AI系统现在需要大量的计算机功能才能工作。您是否担心这会阻碍进度?

为了将其带回MuZero,它是算法的一个示例,可以很好地扩展计算。我们在Atari进行了一项实验,结果表明即使使用非常少量的计算(大约相当于一个GPU数周的时间),它的效果也非常好,而且您获得的性能远远超过了人类。

有一些数字表明,如果您将现在可以利用的所有计算能力加在一起,我们将达到与人脑可比的水平。因此,可能更多的是我们需要提出更智能的算法。

但是MuZero的优点在于,因为它正在建立自己的模型,所以它开始了解世界是如何运转的-想象事物。这种想象力是您实际上可以利用计算开始展望未来,想象接下来会发生什么的一种方式。

一些军事承包商正在利用强化学习来建立更好的武器系统。你对这件事有什么感想?您是否曾经认为您的某些作品不应该公开发表?

我反对在任何致命武器中使用AI,并希望我们在禁止致命自动武器方面取得更大进展。 DeepMind及其联合创始人是《致命自动武器承诺》的签署方,该承诺概述了公司对进攻性技术应始终在适当的人为控制下的信念。

但是,我们仍然认为,适当地发布我们的方法是科学的基石,通用AI算法的开发将在众多积极应用中带来更大的总体社会效益。

🎧听起来不对吗? 查看我们最喜欢的无线耳机,条形音箱和蓝牙扬声器