下载PDF摘要:深度强化学习(RL)的最新进展已经在许多双人零和游戏中取得了相当大的进步,如围棋、扑克和星际争霸。这类游戏的纯对抗性本质允许RL方法在概念上的简单和原则性的应用。然而,现实世界的设置是多智能体的,智能体交互是共同兴趣和竞争方面的复杂混合物。我们来看一款名为“外交”(Diplomacy)的7人棋盘游戏,这款游戏旨在突出多人互动带来的困境。它还具有组合动作空间大、动作同时进行等特点,这对RL算法提出了挑战。我们提出了一种简单而有效的近似最佳响应算子,用于处理较大的组合动作空间和同时动作。我们还介绍了一族近似实际博弈的策略迭代方法。有了这些方法,我们成功地将RL应用到外交中:我们的代理如何令人信服地超越了以前的最先进水平,博弈论均衡分析表明,新的过程产生了持续的改进。