MuZero:无规则掌握围棋,象棋,将棋和Atari

2020-12-24 21:40:38

2016年,我们推出了AlphaGo,这是第一个在古代Go游戏中击败人类的人工智能(AI)程序。两年后,它的继任者-AlphaZero-从零开始学习了Go,国际象棋和将棋的掌握。现在,在《自然》杂志的一篇论文中,我们描述了MuZero,这是在追求通用算法方面迈出的重要一步。由于MuZero能够在未知环境中计划获胜策略,因此无需掌握规则即可掌握Go,棋,shogi和Atari的知识。

多年来,研究人员一直在寻找既可以学习解释其环境的模型,又可以使用该模型来计划最佳行动方案的方法。到目前为止,大多数方法都难以在有效地进行规划的领域(例如Atari),在这些领域中规则或动态特性通常是未知且复杂的。

MuZero于2019年在初步论文中首次引入,通过学习仅关注计划环境中最重要方面的模型来解决此问题。通过将此模型与AlphaZero强大的前瞻性树搜索功能相结合,MuZero在Atari基准上树立了最新的技术水平,同时在Go,国际象棋和将棋的经典规划挑战中将AlphaZero的性能相匹配。这样,MuZero展示了强化学习算法功能的重大飞跃。

计划能力是人类智力的重要组成部分,它使我们能够解决问题并为未来做出决策。例如,如果我们看到乌云形成,我们可以预测会下雨,然后决定冒险出门。人类可以快速学习这种能力,并且可以将其推广到新的场景中,这也是我们希望算法具有的一个特征。

研究人员已尝试通过两种主要方法来应对AI中的这一重大挑战:超前搜索或基于模型的计划。

使用先行搜索的系统(例如AlphaZero)在经典游戏(例如,跳棋,国际象棋和扑克)中取得了显著成功,但依赖于其环境动态知识(例如游戏规则或精确的模拟器)的掌握。这使得很难将它们应用于混乱的现实世界中的问题,这些问题通常很复杂并且很难提炼成简单的规则。

基于模型的系统旨在通过学习环境动态的精确模型,然后使用其进行规划来解决此问题。但是,对环境的各个方面进行建模的复杂性意味着这些算法无法在视觉丰富的领域(如Atari)中竞争。到目前为止,在Atari上最好的结果是来自无模型系统,例如DQN,R2D2和Agent57。顾名思义,无模型算法不使用学习的模型,而是估计下一步将采取的最佳措施。

MuZero使用另一种方法来克服以前方法的局限性。 MuZero并没有尝试对整个环境建模,而只是对对代理商的决策过程至关重要的方面进行建模。毕竟,了解雨伞会使您保持干燥比建模空气中的雨滴模式更有用。

这些都是使用深度神经网络学习的,是MuZero理解采取特定行动时会发生什么并进行相应计划所需的全部。

这种方法的另一个主要优点是:MuZero可以反复使用其学习的模型来改进其计划,而不必从环境中收集新数据。例如,在Atari套件的测试中,这种变体-称为MuZero Reanalyze-90%的时间使用学习的模型来重新计划过去情节中应该做的事情。

我们选择了四个不同的域来测试MuZeros的功能。 Go,国际象棋和将棋被用来评估其在挑战性计划问题上的表现,而我们使用Atari套件作为视觉上更为复杂的问题的基准。在任何情况下,MuZero都为强化学习算法设定了新的技术水平,其性能优于Atari套件上的所有先前算法,并与AlphaZero在围棋,象棋和将棋上的超人性能相匹配。

我们还详细测试了MuZero可以利用其学习的模型进行计划的能力。我们从Go中的经典精度计划挑战开始,在此挑战中,单步行动可能意味着成功与失败之间的区别。为了证实直觉,更多的计划应该会带来更好的结果,我们测量了如果有更多的时间来计划每个举动,那么经过全面训练的MuZero版本可以变得更强大(请参见下面的左图)。结果表明,随着我们将每步动作的时间从十分之一秒增加到50秒,游戏强度会增加1000 Elo(衡量玩家的相对技能)。这类似于强大的业余玩家和最强的职业玩家之间的区别。

为了测试计划是否还会在整个培训过程中带来好处,我们在Atari游戏Ms Pac-Man上进行了一组实验(上面的右图),使用的是单独训练的MuZero实例。允许每个人考虑每个动作的不同数量的计划模拟,范围从5到50。结果证实,增加每个动作的计划数量可以使MuZero更快地学习并获得更好的最终性能。

有趣的是,当MuZero仅允许每步进行6或7次模拟时-这个数字太小而无法覆盖Pac-Man女士的所有可用动作-它仍然取得了不错的性能。这表明MuZero能够在行动和情况之间进行概括,而无需详尽搜索所有可能的内容以有效学习。

MuZero学习环境模型并成功进行规划的能力证明了强化学习和追求通用算法方面的重大进步。 它的前身AlphaZero已被应用于化学,量子物理学等领域的一系列复杂问题。 MuZero强大的学习和计划算法背后的思想可能为应对机器人,工业系统和其他杂乱无章的现实世界环境下的新挑战铺平道路,而这些现实世界对“游戏规则”一无所知。