Plan2Explore:视觉强化学习的主动建模

2020-10-07 08:39:12

为了在非结构化的开放世界环境中成功运行,自主智能Agent需要解决许多不同的任务,并快速学习新的任务。强化学习使人工智能体能够解决仿真和现实世界中的复杂任务。然而,它需要在环境中收集大量的经验,而代理只学习这一特定的任务,就像学生在不理解的情况下背诵讲座一样。自监督强化学习已经成为一种选择,在这种学习中,Agent只遵循独立于任何单个任务的内在目标,类似于无监督的表示学习。在没有监督的情况下对环境进行试验后,代理建立了对环境的理解,这使其能够更有效地适应特定的下游任务。

在这篇文章中,我们将解释我们最近出版的“开发Plan2Explore”。虽然最近许多关于自我监督强化学习的论文都集中在非模型代理上,这些代理只能通过记住在自我监督期间练习的行为来捕获知识,但我们的代理学习了一个内部世界模型,该模型让它通过预测不同潜在行动的结果来推断记忆的事实之外的事情。世界模型获取了一般知识,允许Plan2Explore通过自己想象中的计划快速解决新任务。与无模型的先前工作相比,世界模型进一步使代理能够探索它所期望的新奇之处,而不是重复它在过去发现的新奇之处。Plan2Explore在高维输入图像的连续控制基准上获得最先进的零镜头和少镜头性能。为了便于使用我们的代理进行实验,我们将完整的源代码开源。

在较高层次上,Plan2Explore的工作方式是训练世界模型,探索最大化世界模型的信息增益,并使用世界模型验证时间来解决新任务(见上图)。多亏了有效的探索,学习的世界模型是通用的,捕捉到的信息可以用来解决多个新任务,而不需要或只需要很少的额外环境交互。下面我们将分别讨论Plan2Explore算法的各个部分。在这篇文章中,我们假设对增援学习有一个基本的理解。

Plan2Explore学习了一个世界模型,该模型根据过去的观测$o_{1:t}$和行动$a_{1:t}$预测未来的结果。为了处理高维图像观测,我们将它们编码成低维特征$h$,并使用在紧凑的潜在状态空间$s$中预测向前的RSSM模型。潜伏期状态从过去的观测中收集信息,并利用重构未来观测的变分目标,为未来的预测进行训练。由于潜态学习表示观测,在规划过程中,我们可以完全预测潜态,而不需要解码图像本身。下图显示了我们的潜在预测架构。

为了了解准确而普遍的世界模型,我们需要一种探索策略,收集新的和信息丰富的数据。为了实现这一点,Plan2Explore使用从模型本身派生的另一种度量。新颖性度量衡量通过观察新数据而获得的关于环境的预期信息。如下图所示,这是通过$K$潜在模型集合的不一致来近似的。实际上,较大的潜在不一致反映了较高的模型不确定性,而获得数据点将减少这种不确定性。通过最大化潜在分歧,Plan2Explore选择能够带来最大信息的行动,从而尽可能快地改进模型。

为了有效地使新颖性最大化,我们需要知道环境的哪些部分仍未开发。大多数之前关于自我监督探索的工作都使用无模型方法,这些方法强化了过去的行为,导致了新的体验。这使得这些方法的探索速度很慢:因为它们只能重复过去成功的探索行为,所以不太可能偶然发现一些新奇的东西。相比之下,Plan2Explore通过测量想象的未来结果的模型不确定性来计划预期的新颖性。通过寻找具有最高不确定性的轨迹,Plan2Explore精确地探索了以前未知的环境部分。

为了选择优化探索目标的操作$a$,Plan2Explore发布学习世界模型,如下图所示。选择的操作是为了最大化整个未来序列$s_{t:t}$的预期新颖性,使用世界模型的假想推出来估计新颖性。为了解决这个优化问题,我们使用DreamerAgent,它使用值函数学习策略$\pi_\φ$,并通过模型分析梯度。这项政策完全是在世界模式的想象中学习的。D

一旦掌握了准确而一般的世界模型,我们就会在以前未见过的任务上测试Plan2Explore。给定一个使用奖励函数指定的任务,我们使用该模型来优化该任务的策略。类似于我们的探索过程,我们为下游任务优化了一个新的价值函数和一个新的政策头。此优化仅使用模型想象的预测,使Plan2Explore能够以零命中方式解决新的下游任务,而无需与世界进行任何额外的交互。

下图显示了Plan2Explore在DMControl Suite任务上的性能。在一百万个环境步骤之前,代理不知道任务,只是简单地进行探索。一旦提供了100万步,代理就解决了这个任务,并且在那之后的几个步骤中保持快速的改进。

Plan2Explore(-)能够解决我们进行基准测试的大多数任务。由于先前关于自我监督强化学习的工作使用了不能以零激发方式适应的无模型代理(ICM,-),或者没有使用图像观察,因此我们将这一先前的工作适应于我们基于模型的Plan2Explore设置。我们的潜在分歧目标比之前提出的其他目标要好。更有趣的是,Plan2Explore的最终性能可以与最先进的Oracle Agent相媲美,后者在整个培训过程中需要任务奖励(-)。在我们的论文中,我们进一步报告了Plan2Explore在零射击设置下的性能,在这种情况下,Agent需要在任何面向任务的实践之前解决任务。

Plan2Explore证明,有效的行为只能通过自我监督的探索来学习。这为未来的搜索开辟了多种途径:

首先,为了将自我监督的RL应用到各种环境中,未来的工作将调查指定任务和从世界模型派生行为的不同方式。例如,任务可以用描述、所需目标状态的描述来指定,或者用自然语言传递给代理。

其次,虽然Plan2Explore是完全自我监督的,但在许多情况下,可以使用微弱的监督信号,例如在硬探索游戏、人在环中学习或现实生活中。在这样的半监督环境中,研究如何利用弱监督来引导对环境相关部分的探索是一件有趣的事情。

最后,Plan2Explore有可能提高现实世界机器人系统的数据效率,因为在现实世界中,探索是昂贵和耗时的,而且最终任务通常是事先未知的。

Plan2Explore通过设计一种可扩展的方式来计划在非结构化环境中进行视觉观察,从而为实现自我监督的智能机器迈出了重要的一步。

我们要感谢Georgios Georgakis和CMU和Bair博客的编辑提供了有用的反馈。

计划探索通过自我监督的世界模型Ramanan Sekar*,Oleh Rypkin*,Kostas Daniilidis,Pieter Abbeel,Danijar Hafner,Deepak Pathak第37国际会议机器学习(ICML),2020。Arxiv,项目网站