三种新的强化学习方法旨在改善游戏及其他领域的人工智能

2020-08-04 02:38:59

强化学习(RL)为游戏开发提供了令人兴奋的机会,正如我们最近宣布的Paidia项目所强调的那样-这是我们在微软剑桥研究院的游戏智能小组和游戏开发商忍者理论之间的研究合作。在Paidia项目中,我们推动强化学习的最新技术,以实现新的游戏体验。特别是,我们专注于开发真正学会与人类玩家合作的游戏代理。在这篇博客文章中,我们展示了我们最近的三个研究成果,它们都是由这些研究目标推动的。我们概述了关键的见解,并解释了它们如何导致现代视频游戏开发和其他现实世界应用程序中的人工智能创新。

强化学习可以为游戏开发人员提供比传统方法更细致入微的游戏角色的能力,方法是提供指定高级目标的奖励信号,同时让游戏角色制定出最佳策略,以便在与游戏的互动中有机出现的数据驱动行为中实现高回报。要了解如何使用RL为游戏开发自己的代理,并开始编写培训脚本,请查看这篇Game Stack Live博客文章。开始强化学习比你想象的要容易-Microsoft Azure还提供工具和资源,包括Azure机器学习,它提供RL培训环境、库、虚拟机等。

我们的研究解决的关键挑战是如何使强化学习对游戏开发人员来说是有效和可靠的(例如,通过将其与不确定性估计和模拟相结合),如何构建赋予Agent正确能力(如长期记忆)的深度学习体系结构,以及如何使Agent能够快速适应新的游戏情况。下面,我们重点介绍我们在这三个领域的最新研究进展。

从计算机视觉到强化学习和机器翻译,深度学习无处不在,并在许多问题上取得了最先进的结果。我们给它一个数据集,它给我们一个基于深度学习模型的最佳猜测的预测。深度学习的成功意味着,它正越来越多地被应用于预测具有深远后果、错误可能代价高昂的环境中。

问题是,在这些情况下,大多数深度学习模型采用的最佳猜测方法是不够的。相反,我们想要的是一种技术,它不仅能为我们提供预测,还能提供相关的确定性程度。我们的ICLR 2020论文“通过拟合先验网络进行保守的不确定性估计”正是探索了这一点-我们描述了一种知道给定深度学习模型的预测的未知知识的方法。这项研究是由Kamil Ciosek、Vincent Fortuin、Ryota Tomioka、Katja Hofmann和Richard Turner进行的。

在更专业的术语中,我们提供了随机网络蒸馏(RND)的分析,这是一种成功的估计深度学习模型置信度的技术。

我们分析的RND版本维护了一个与进行预测的模型分离的不确定性模型。为了更直观地了解不确定性模型是如何工作的,让我们看一下上面的图1。我们有两种类型的神经网络:预测器(绿色)和先验(红色)。先前的网络是固定的,并且在训练期间不会改变。当我们看到一个新的数据点时,我们训练预测器以匹配该点上的先前数据点。在该图中,我们观察到的数据点用红点表示。我们可以看到,在接近的点上,预报器和先验是重叠的。另一方面,如果我们看右边的值,远离观测点,我们会看到预测值和先验值之间存在巨大的差距。

粗略地说,本文的理论结果表明,先验和预测之间的差距很好地表明了模型对其输出的确定性程度。事实上,我们将获得的不确定度估计与不确定性量化中的黄金标准-通过贝叶斯推理获得的后验概率-进行了比较,并表明它们具有两个吸引人的理论性质。首先,RND返回的方差总是高估了贝叶斯后验方差。这意味着,虽然RND可以返回比必要的更大的不确定性,但它不会变得过于自信。其次,我们证明了不确定性是集中的,即模型经过多次观测训练后,不确定性最终变小。换句话说,随着我们看到越来越多的数据,该模型对其预测变得更加确定。

在许多游戏中,玩家对他们周围的世界有部分的观察力。要在这些游戏中采取行动,玩家需要回忆起当前看不见但在游戏早些时候看到的物品、位置和其他玩家。通常,深度强化学习代理已经通过合并递归层(例如LSTM或GRU)或在差分神经计算机(DNC)的情况下对外部存储器进行读写的能力来处理这一问题。

在自然语言处理中,使用递归的层来回忆早期的观察结果是很常见的,在自然语言处理中,单词的顺序通常对它们的解释很重要。然而,当代理与游戏环境交互时,他们可以影响他们观察周围环境的顺序,这可能与他们应该如何行动无关。举一个相当于人类的例子,如果我在穿过一座新建筑时看到一个安全出口,我可能需要稍后回忆起它在哪里,无论我后来看到了什么或做了什么。在我们的ICLR 2020论文“AMRL:强化学习的聚合内存”中,我们建议在代理的策略网络中使用顺序不变聚合器(到目前为止看到的值的总和或最大值)来解决这个问题。

虽然能够读取和写入外部存储器(如DNC)的方法也可以学习直接回忆早期的观察结果,但其架构的复杂性表明,它们需要更多与环境交互的样本,这可能会阻止它们在固定计算预算内学习高性能策略。

在我们的实验中,我们的玩“我的世界”的代理人在一集的开头被展示了一个红色或绿色的立方体,告诉他们在这一集的结尾他们必须如何行动。在看到绿色或红色立方体之间的时间里,代理人可以在环境中自由移动,这可能会产生可变长度的无关观察序列,这可能会分散代理人的注意力,让他们忘记开始时立方体的颜色。

通过将递归层与顺序不变聚集器相结合,AMRL既可以从最近的观测序列中推断出状态的隐藏特征,又可以回忆过去的观测,而不管它们是什么时候被看到的。使我们的特工能够高效地回忆起立方体的颜色,并在这一集结束时做出正确的决定。现在,有了这一新功能,我们的代理可以玩更复杂的游戏,甚至可以部署在非游戏应用程序中,在这些应用程序中,代理必须在部分可见的环境中回忆起遥远的记忆。

为这项工作做出贡献的研究人员包括雅各布·贝克、卡米尔·乔塞克、萨姆·德夫林、塞巴斯蒂安·齐亚特谢克、张成和卡佳·霍夫曼。

目前的大多数强化学习工作,以及大多数为视频游戏应用培训的RL代理,都是针对单个游戏场景进行优化的。然而,类似人类的游戏的一个关键方面是不断学习和适应新挑战的能力。在我们与牛津大学的Luisa Zintgraf、Kyriacos Shiarlis、Maximian IGL、Sebastian Schulze、Yarin Gal和Shimon Whiteson的联合工作中,我们开发了一种灵活的新方法,使座席能够学习探索并快速适应给定的任务或场景。

在“VariBAD:基于元学习的贝叶斯-自适应深度RL的一种非常好的方法”中,我们关注的问题可以形式化为所谓的“贝叶斯-自适应马尔可夫决策过程”(Bayes-Adaptive Markov Decision Process)。简而言之,在这种设置中,座席学习与广泛的任务交互,并学习如何尽快推断手头的当前任务。我们的目标是训练贝叶斯-最优代理-在给定他们目前对任务的信念的情况下行为最优的代理。例如,假设一名座席接受了到达各种目标位置的培训。在每一集新节目的开始,代理人都不确定它应该达到的目标位置。贝叶斯最优代理在给定其对可能目标的初始信念的情况下,采取最优步骤来减少其不确定性并达到正确的目标位置。

我们的新方法引入了一种灵活的编解码器体系结构来建模Agent的信任分布,并通过根据当前信任来调整其策略来学习最优行为。我们证明,这导致了一个强大而灵活的解决方案,在几个研究任务上实现了贝叶斯最优行为。在我们正在进行的研究中,我们调查了这样的方法如何使游戏代理能够快速适应新的游戏情况。

在这篇文章中,我们只展示了一些激动人心的研究方向,这些方向是我们在剑桥微软研究院的游戏智能主题中探索的,也是我们与忍者理论的同事们合作的。我们研究的一个关键方向是创造能够真正学习与人类玩家合作的人工代理,无论是在基于团队的游戏中,比如出血边缘,还是最终在超越游戏的现实世界应用程序中,比如虚拟助手。我们认为上面讨论的研究结果是实现这一目标的关键步骤:通过让代理更好地检测不熟悉的情况并利用演示进行更快的学习,通过创建学习记住较少数据的长期依赖关系和结果的代理,以及允许代理非常快速地适应新的情况或人类合作者。

要了解更多关于我们与游戏合作伙伴的工作,请访问AI创新页面。要了解更多关于我们的研究以及与我们合作的机会,请访问aka.ms/gameIntelligence。