近年来,人工智能代理在一系列复杂的游戏环境中取得了成功。例如,AlphaZero 在开始时只知道如何下棋的基本规则,就击败了国际象棋、将棋和围棋的世界冠军程序。通过强化学习 (RL),这个单一系统通过反复试验和错误的过程进行一轮又一轮的游戏来学习。但是 AlphaZero 仍然在每场比赛中单独训练——如果不从头开始重复强化学习过程,就无法简单地学习另一个游戏或任务。 RL 的其他成功作品也是如此,例如 Atari、Capture the Flag、星际争霸 II、Dota 2 和捉迷藏。 DeepMind 解决智能以推动科学和人类进步的使命使我们探索如何克服这一限制以创建具有更通用和适应性行为的 AI 代理。这些智能体无需一次学习一个游戏,而是能够对全新的条件做出反应,并玩一整套游戏和任务,包括以前从未见过的游戏和任务。今天,我们发布了“Open-Ended Learning Leads to General Capable Agents”,这是一份预印本,详细介绍了我们训练能够在不需要人类交互数据的情况下玩许多不同游戏的代理的第一步。我们创建了一个巨大的游戏环境,我们称之为 XLand,其中包括在一致的、与人类相关的 3D 世界中的许多多人游戏。这种环境使得制定新的学习算法成为可能,这些算法动态控制代理的训练方式和训练的游戏。作为对训练中出现的挑战的响应,代理的能力不断提高,学习过程不断完善训练任务,因此代理永远不会停止学习。结果是一个能够成功完成广泛任务的代理——从简单的对象寻找问题到复杂的游戏,比如捉迷藏和夺旗,这些在训练中都没有遇到过。我们发现代理表现出一般的启发式行为,例如实验,广泛适用于许多任务而不是专门用于单个任务的行为。这种新方法标志着朝着创建更通用的代理迈出了重要的一步,该代理具有在不断变化的环境中快速适应的灵活性。缺乏训练数据——其中“数据”点是不同的任务——一直是限制 RL 训练的智能体行为普遍适用于跨游戏的主要因素之一。由于无法在足够多的任务集上训练智能体,使用 RL 训练的智能体无法将他们学习到的行为适应新任务。但是通过设计模拟空间以允许程序生成的任务,我们的团队创造了一种方法来训练以编程方式创建的任务并从中产生经验。这使我们能够在 XLand 中包含数十亿个任务,跨越不同的游戏、世界和玩家。我们的 AI 代理位于多人游戏环境中的 3D 第一人称化身,旨在模拟物理世界。玩家通过观察 RGB 图像来感知周围环境,并收到他们目标的文字描述,然后他们会在一系列游戏中进行训练。这些游戏就像寻找物体和导航世界的合作游戏一样简单,玩家的目标可能是“靠近紫色立方体”。更复杂的游戏可以基于从多个奖励选项中进行选择,例如“靠近紫色立方体或将黄色球体放在红色地板上”,而更具竞争力的游戏包括与合作玩家对战,例如对称的捉迷藏每个玩家都有一个目标,“看到对手,让对手看不到我”。每个游戏都定义了对玩家的奖励,每个玩家的最终目标都是最大化奖励。由于 XLand 可以通过编程方式指定,游戏空间允许以自动化和算法方式生成数据。并且由于 XLand 中的任务涉及多个玩家,共同玩家的行为极大地影响了 AI 代理面临的挑战。这些复杂的非线性交互创造了一个理想的训练数据源,因为有时即使环境组件的微小变化也会导致代理面临的挑战发生巨大变化。我们研究的核心是深度强化学习在训练我们代理的神经网络中的作用。我们使用的神经网络架构提供了一种对智能体内部循环状态的注意力机制——通过对智能体正在玩的游戏特有的子目标的估计来帮助引导智能体的注意力。我们发现这个目标注意代理 (GOAT) 可以学习更通用的策略。我们还探讨了一个问题,训练任务的什么分布会产生最好的代理,尤其是在如此广阔的环境中?我们使用的动态任务生成允许代理训练任务的分布不断变化:生成的每个任务既不太难也不太容易,但正好适合训练。然后,我们使用基于群体的训练 (PBT) 来调整基于适应度的动态任务生成的参数,旨在提高代理的一般能力。最后,我们将多个训练运行链接在一起,这样每一代代理都可以引导上一代代理。
这导致了以深度强化学习为核心的最终训练过程,随着每一步经验更新代理的神经网络:经验步骤来自于响应代理行为而动态生成的训练任务,在最外层的循环中,几代代理相互引导,为多人游戏环境提供更丰富的合作玩家,并重新定义进程本身的衡量标准。训练过程从头开始,迭代构建复杂性,不断改变学习问题以保持代理学习。组合学习系统的迭代性质不优化有界性能指标,而是优化迭代定义的通用能力范围,导致代理的潜在开放式学习过程,仅受环境空间和代理的表达能力的限制神经网络。为了衡量代理在这个广阔的宇宙中的表现,我们使用与用于训练的数据保持分离的游戏和世界创建了一组评估任务。这些“保留”任务包括专门设计的任务,例如捉迷藏和夺旗。由于 XLand 的大小,了解和表征我们的代理的性能可能是一个挑战。每项任务都涉及不同程度的复杂性、不同规模的可实现奖励以及不同的智能体能力,因此仅将奖励与保留的任务进行平均将隐藏复杂性和奖励的实际差异——并将有效地将所有任务视为同等有趣,这不一定适用于程序生成的环境。为了克服这些限制,我们采取了不同的方法。首先,我们使用我们当前训练的玩家集计算的纳什均衡值对每个任务的分数进行归一化。其次,我们考虑归一化分数的整个分布——而不是查看平均归一化分数,我们查看归一化分数的不同百分位数——以及代理至少获得一个奖励步骤的任务百分比:参与。这意味着只有当一个代理在所有百分位数上的表现都超过了它时,才被认为比另一个代理更好。这种测量方法为我们提供了一种评估代理性能和稳健性的有意义的方法。
在对我们的智能体进行了五代训练后,我们看到在我们保留的评估空间中学习和性能的持续改进。在 XLand 的 4,000 个独特世界中玩大约 700,000 个独特游戏,最后一代的每个智能体都经历了 2000 亿次训练步骤,这是 340 万个独特任务的结果。目前,我们的智能体已经能够参与每个程序生成的评估任务,除了少数即使是人类也无法完成的评估任务。我们看到的结果清楚地展示了整个任务空间中的一般零样本行为——标准化分数百分位数的前沿不断提高。定性地观察我们的代理,我们经常看到一般的、启发式的行为出现——而不是针对单个任务的高度优化的、特定的行为。与智能体确切地知道在新情况下“最好的事情”相比,我们看到了智能体试验和改变世界状态直到他们达到有益状态的证据。我们还看到代理依赖于其他工具的使用,包括遮挡可见性、创建坡道和检索其他对象的对象。由于环境是多人游戏,因此我们可以在对持久的社交困境进行训练时检查代理行为的进展,例如在“吃鸡”游戏中。随着训练的进行,我们的代理在玩自己的副本时似乎表现出更多的合作行为。鉴于环境的性质,很难确定意向性——我们经常看到的行为似乎是偶然的,但我们仍然看到它们始终如一地发生。分析智能体的内部表征,我们可以说,通过在广阔的任务空间中采用这种强化学习方法,我们的智能体了解他们身体的基础知识和时间的流逝,并且他们了解游戏的高级结构他们遇到。也许更有趣的是,它们清楚地认识到环境的奖励状态。新任务中行为的这种普遍性和多样性暗示了在下游任务上微调这些代理的潜力。例如,我们在技术论文中表明,只需对新提出的复杂任务进行 30 分钟的集中训练,代理就可以快速适应,而从头开始用 RL 训练的代理根本无法学习这些任务。通过开发像 XLand 这样的环境和支持开放式复杂性创建的新训练算法,我们已经看到 RL 代理零样本泛化的明显迹象。虽然这些智能体开始在这个任务空间中普遍具备能力,但我们期待继续我们的研究和开发,以进一步提高它们的性能并创建更具适应性的智能体。我们希望我们的技术论文的预印本——以及我们所看到的结果的视频——能帮助其他研究人员同样看到一条新途径,以创造更具适应性、普遍能力更强的人工智能代理。如果您对这些进步感到兴奋,请考虑加入我们的团队。有关更多详细信息,请参阅我们的预印本“开放式学习导致通用智能体”。这篇博文基于开放式学习团队的联合工作(按名字的字母顺序排列):Adam Stooke、Anuj Mahajan、Catarina Barros、Charlie Deck、Jakob Bauer、Jakub Sygnoowski、Maja Trebacz、Max Jaderberg、Michael Mathieu、纳特·麦卡利斯、娜塔莉·布拉德利-施米格、纳撒尼尔·黄、尼古拉斯·波塞尔、罗伯塔·莱莱努、斯蒂芬·休斯-菲特、瓦伦丁·达利巴德、沃伊切赫·玛丽安·查尔内奇。
掌握多人视频游戏中涉及的策略、战术理解和团队合作,代表了…… AlphaStar 是第一个在没有任何游戏限制的情况下进入广受欢迎的电子竞技顶级联赛的人工智能。体育分析正处于一个非常重要的时代,为 AI 研究人员提供了有趣的机会......与 EMBL-EBI 合作,我们非常自豪地推出 AlphaFold 蛋白质结构数据库。我们的研究探索了解决旧问题的新方法:我们重新制定了主成分分析 (PCA),这是一种......在未知环境中规划获胜策略是追求通用算法的一个进步。介绍我们的 JAX 生态系统以及为什么我们发现它对我们的 AI 研究有用。