强化学习(RL)最常用的两种观点是最优化和动态规划。计算不可微期望报酬目标的梯度的方法,如强化技巧,通常归入优化角度,而使用TD学习或Q学习的方法是动态规划方法。虽然这些方法在最近几年已经取得了相当大的成功,但这些方法在应用于新问题方面仍然具有相当的挑战性。相比之下,深度监督学习非常成功,因此我们可能会问:我们可以使用监督学习来执行RL吗?
在这篇博客文章中,我们讨论了RL的心智模型,基于RL可以被视为对“好数据”进行有监督的学习的想法。使RL具有挑战性的是,除非您正在进行模仿学习,否则实际获取“好数据”是相当具有挑战性的。因此,RL可以被视为策略和数据的联合优化问题。从这个监督学习的角度来看,许多RL算法可以看作是在寻找好数据和对该数据进行监督学习之间交替进行的。事实证明,在多任务设置中查找“好数据”要容易得多,或者设置可以转换为获取“好数据”容易的不同问题。事实上,我们将讨论诸如事后重新标记和反向RL等技术如何被视为优化数据。
我们将首先回顾关于RL的两个常见观点,优化和动态编程。然后,我们将深入研究关于RL的监督学习视角的正式定义。
优化视角将RL视为优化不可微函数的特例。回想一下,预期奖励是保单$\pi_\theta$的参数$\theta$的函数:
该函数很复杂,通常是不可区分和未知的,因为它取决于策略选择的操作和环境的动态。虽然我们可以使用增强技巧估计梯度,但该梯度取决于策略参数和策略上的数据,这些数据是通过运行当前策略从模拟器中生成的。
动态规划观点认为,最优控制是在每一步选择正确动作的问题。在具有已知动态的离散设置下,我们可以精确地求解该动态规划问题。例如,Q学习通过迭代以下更新来估计状态操作值$Q(s,a)$:
在连续空间或具有大的状态和动作空间的设置中,我们可以通过使用函数逼近器(例如,神经网络)来表示Q函数并最小化TD误差的差值来近似动态规划,TD误差是上式中LHS和RHS之间的平方差:
其中Td目标$y(s,a)=r(s,a)+\γ\max_{a‘}q_\θ(s’,a‘)$。请注意,这是Q函数的损失函数,而不是策略。
这种方法允许我们使用任何类型的数据来优化Q函数,因此不需要具有“好的”数据,但是它存在重大的优化问题,可能会发散或收敛到较差的解,并且很难应用于新问题。
我们现在讨论RL的另一个心理模型。其主要思想是将RL视为政策和体验上的联合优化问题:我们同时希望找到“好数据”和“好政策”。直觉上,我们预计“好”的数据将(1)获得高额回报,(2)充分探索环境,(3)至少在一定程度上代表我们的政策。我们将好的政策简单地定义为可能产生良好数据的政策。
图1:许多旧的和新的强化学习算法可以看作是在做行为克隆(又名:监督学习)。这篇博客讨论了最近的工作,这些工作将这个想法扩展到了多任务的角度,在这个角度上,优化数据实际上变得“更容易”了。
将“好数据”转化为“好策略”很容易:只需进行有监督的学习!相反,将“好政策”转换为“好数据”稍微更具挑战性,我们将在下一节讨论几种方法。事实证明,在多任务设置中或通过人为稍微修改问题定义,将“好策略”转换为“好数据”要容易得多。倒数第二部分将讨论目标重新标记、修改后的问题定义和反向RL如何在多任务设置中提取“好数据”。
我们现在使用期望最大化的镜头将监督学习的视角形式化,这是许多先前作品中使用的镜头[Dayan 1997,Williams 2007,Peters 2010,Neumann 2011,Levine 2013]。为了简化表示法,我们将使用$\pi_\theta(\tau)$作为策略$\pi_\theta$产生轨迹$\tau$的概率,并将使用$q(\tau)$表示我们将优化的数据分布。考虑预期奖励目标的日志,$\log J(\θ)$。由于对数函数是单调递增的,最大化这相当于最大化期望回报。然后,我们应用Jensen不等式将对数移入期望值:
这个下限的有用之处在于,它允许我们使用从不同策略采样的数据来优化策略。这个下限清楚地表明,RL是一个关于策略和经验的联合优化问题。下表将监督学习视角与优化和动态编程视角进行了比较:
找到好的数据和好的策略对应于优化关于策略参数和经验的下限$F(\theta,q)$。最大化下限的一种常见方法是对其参数执行坐标递增,在优化数据分布和策略之间交替执行。1个。
当优化关于策略的下限时,目标(直到常数)完全等同于监督学习(也称为。行为克隆)!
这一观察结果令人兴奋,因为监督学习通常比RL算法2稳定得多。此外,这一观察表明,以前使用监督学习作为子例程的RL方法[Oh2018,Ding 2019]实际上可能正在优化预期回报的下限。
数据分发的目标是在不偏离当前政策太远的情况下最大化回报。
上面的KL约束使得数据分布的优化是保守的,倾向于以略低的回报为代价保持与当前政策的一致性。优化期望的对数回报,而不是期望的回报,进一步使这个优化问题规避风险($\log(\cdot)$函数是一个凹的效用函数[^Ingersoll19])。
我们可以通过多种方式来优化数据分布。一种简单(如果效率不高)的策略是收集当前政策的嘈杂版本的经验,并保留获得最高奖励的10%的经验。[^Oh18]另一种方法是进行轨迹优化,沿着单一轨迹优化各州。[Neumann 2011,Levine 2013]第三种方法是不收集更多数据,而是根据奖励重新调整之前收集的轨迹的权重。[^Oh18][^Oh18]另一种方法是沿单一轨迹优化各州。[Neumann 2011,Levine 2013]。[Dayan1997]此外,数据分布$Q(\tau)$可以以多种方式表示-作为先前观察到的轨迹上的非参数离散分布[OH 2018],或单个状态-动作对上的因数分布[Neumann 2011,Levine 2013],或者表示为半参数模型,该半参数模型利用从参数模型生成的额外幻觉经验来扩展观察经验。[Kumar 2019]。
许多算法会变相执行这些步骤。例如,奖励加权回归[Williams 2007]和优势加权回归[Neumann 2009,Peng 2019]通过对奖励加权数据进行行为克隆,将这两个步骤结合起来。自我模仿学习[OH2018]通过根据奖励对观察到的轨迹进行排序,并在top-k上选择均匀分布来形成数据分布。MPO[Abdolmaleki 2018]通过从策略中采样动作来构建数据集,对那些预期会导致高奖励(即,具有高奖励加价值)的动作进行重新加权,然后对这些重新加权的动作执行行为克隆。
图2:最近的一些多任务RL算法根据每个经验块解决的任务来组织经验。这种事后组织过程与事后重标记和逆RL密切相关,是目前基于监督学习的多任务RL算法的核心。
最近的一些算法可以被视为这一想法的转世,只是有了一些转折。不同之处在于,在多任务设置中查找好的数据变得容易得多。这些作品通常要么直接在多任务设置中操作,要么将单任务设置修改为类似于多任务设置。随着任务数量的增加,对于某些任务来说,所有体验都会变得最优。我们现在通过这个镜头来看最近的三篇论文:
有目标的模仿学习:[Savinov 2018,Ghosh 2019,Ding 2019,Lynch 2020]在一项达成目标的任务中,我们的数据分布既包括状态和行动,也包括尝试的目标。由于机器人没有达到命令目标仍然是成功地达到了它实际达到的目标,所以我们可以通过用实际达到的目标替换最初的命令目标来优化数据分布。因此,通过目标条件模仿学习[Savinov 2018,Ghosh 2019,Ding 2019,Lynch 2020]和事后经验回放[Andrychowicz 2017]执行的后见之明重新标记可以被视为优化非参数数据分布。此外,目标条件模仿可以被视为简单地对优化数据进行有监督的学习(也称为行为克隆)。有趣的是,当这个有目标条件的重新贴标签的模仿过程反复重复时,可以看出这是一个从头开始学习政策的收敛过程,即使根本没有提供任何专家数据![Ghosh 2018]这特别有希望,因为它本质上为我们提供了一种非策略RL的技术,而不需要明确要求任何引导或值函数学习,大大简化了算法和调优过程。
有奖励条件的政策:[Kumar 2019,Sriastava 2019]有趣的是,如果我们可以将从次优政策收集的非专家轨迹视为对某些任务系列的最佳监督,我们可以将上面讨论的洞察力扩展到单任务RL。当然,这些次优轨迹可能不会使奖励最大化,但对于匹配给定轨迹的奖励而言,它们是最优的。因此,我们可以将策略修改为以长期回报(即回报)的期望值为条件,并遵循与目标条件模仿学习类似的策略:通过命令期望的回报值,使用此回报条件策略执行推出,将命令的返回值重新标记为观察到的回报,这将非参数地提供优化的数据,最后,对该优化的数据运行监督学习。我们证明了[Kumar 2019],通过简单的重新加权方案以非参数的方式简单地优化数据,我们可以获得保证收敛于最优策略的RL方法,并且比大多数RL方法更简单,因为它不需要可能难以调整的参数回报估计器。
政策改进的后见之明推理:[Eysenbach 2020]虽然目标达成算法和数据集优化之间的联系很整齐,但直到最近还不清楚如何将类似的想法应用于更一般的多任务设置,例如离散的奖励函数集或由不同(线性)奖金和惩罚项组合定义的奖励集。为了解决这个悬而未决的问题,我们从优化数据分布对应于回答以下问题的直觉开始:“如果您假设您的体验是最佳的,那么您试图解决的任务是什么?”间接地,这正是逆向RL回答的问题。这表明我们可以简单地使用逆向RL在任意多任务设置中重新标记数据:逆向RL为跨任务共享经验提供了一种理论上有基础的机制。这一结果令人振奋,原因有二:
这个结果告诉我们如何将类似的重新标记思想应用于更一般的多任务设置。我们的实验表明,使用反向RL的重新标记体验可以在广泛的多任务设置中加速学习,甚至在实现目标的任务上优于以前的目标重新标记方法。
事实证明,用实际达到的目标重新标记完全等同于用某种稀疏奖励函数进行逆RL。这一结果使我们能够将以前的目标重新标记技术解释为反向RL,从而为这些方法提供了更坚实的理论基础。更广泛地说,这个结果是令人兴奋的。
在这篇文章中,我们讨论了如何将RL视为解决一系列标准监督学习问题,但使用的是优化的(相关的)数据。过去十年深度监督学习的成功可能表明,这种方法可能更容易在实践中使用。虽然到目前为止的进展是有希望的,但也有几个悬而未决的问题。首先,还有什么其他(更好的)方法可以获得优化的数据?重新权衡或重组现有经验是否会在学习过程中导致偏见?RL算法应该如何探索以获得更好的数据?在这方面取得进展的方法和分析也可能为从RL的不同角度派生的算法提供见解。其次,这些方法可以提供一种简单的方式来将实用技术以及理论分析从深度学习带到RL,否则由于非凸目标(例如,策略梯度)或优化和测试时间目标的不匹配(例如,Bellman错误和策略返回)而很难实现。我们对这些方法提供的几个前景感到兴奋:改进的实用RL算法,提高对RL方法的理解,等等。
我们感谢艾伦·朱、Shreyas Chaudhari、Sergey Levine和Daniel Seita对本帖子的反馈。
Ghosh,D.,Gupta,A.,Fu,J.,Reddy,A.,Devin,C.,Eysenbach,B.,&Amp;Levine,S.(2019年)。通过迭代监督学习达到目标,arxiv:1912.06088。
艾森巴赫,B.,耿X.,Levine,S.,&Amp;Salakhutdinov,R.(2020)。使用逆向RL重写历史:策略改进的后见之明推理。NeurIPS 2020(口头)。
从技术上讲,我们的下限是一个证据下限,因此在其上协调上升相当于预期最大化。-↩。
虽然监督学习通常比RL更稳定,但迭代监督学习在固定数据集上的稳定性可能不如监督学习。--↩