DeepMind早期AI的成功至少部分归因于非常有效地导航了代表游戏中可能动作的巨大决策树。在Go或Chess中,这些树受非常特定的规则支配,例如棋子可以移动到哪里,当棋子这样做时会发生什么,等等。
在AlphaGo比赛中击败AI的世界冠军的AI知道这些规则,并在研究人类玩家之间和对抗人类的游戏时牢记这些规则(或也许在RAM中),形成了一组最佳实践和策略。续集《 AlphaGo Zero》在没有人类数据的情况下做到了这一点,只能与自己抗衡。 AlphaZero在2018年对Go,Chess和Shogi进行了相同的操作,创建了一个可以熟练玩所有这些游戏的单一AI模型。
但是在所有这些情况下,都为AI提供了一组不变的,已知的游戏规则,从而创建了一个框架来围绕它构建策略。想想看:如果您告诉卒子可以成为女王,那么就应该从头开始计划,但是如果必须找出答案,您可能会制定完全不同的策略。
正如该公司在有关其新研究的博客文章中解释的那样,如果提前告知AI规则,“这将很难将它们应用于通常复杂且难以分解为简单规则的混乱的现实世界中的问题。”
那么,该公司的最新进步就是MuZero,它不仅可以玩上述游戏,而且可以玩各种Atari游戏,而且完全没有提供规则手册。最终模型不仅是自己进行实验(没有人类数据),而且还没有被告知最基本的规则,而是学会了玩所有这些游戏。
MuZero不会使用规则来找到最佳情况(因为不可能),而是学会考虑游戏环境的各个方面,自己观察它是否重要。在数百万场比赛中,它不仅学习规则,而且学习位置的一般价值,取得成功的一般政策以及事后评估自己的行为的方式。
后一种功能可帮助其从自身的错误中学习,倒带和重做游戏,以尝试进一步磨练立场和政策价值的不同方法。
您可能还记得Agent57,这是DeepMind的另一项创造,在一组57种Atari游戏中表现出色。 MuZero充分利用了AI的优势,并将其与AlphaZero的优势相结合。 MuZero与前者的不同之处在于,它不对整个游戏环境进行建模,而是专注于影响其决策的部分,而后者则在于其规则模型完全基于自身的实验和第一手知识。
了解游戏世界后,MuZero可以有效地计划其行动,即使像许多Atari游戏一样,游戏世界是部分随机且视觉复杂的游戏。这使它更接近可以安全,智能地与现实世界进行交互的AI,无需了解每个细节即可学会理解周围的世界(尽管很可能有一些类似“不要压垮人类”的事情,将被刻在石头上)。正如一位研究人员告诉英国广播公司(BBC)一样,该团队已经在尝试观察MuZero如何改善视频压缩,这显然是与Pac-Man女士截然不同的问题。