不断发展的强化学习算法

2021-01-19 04:05:46

下载PDF摘要:我们通过搜索计算图的空间,提出一种元学习强化学习算法的方法,该计算图可计算损失函数,以基于值的无模型RL代理进行优化。 学习算法与领域无关,可以推广到培训期间未看到的新环境。 我们的方法可以从头开始学习,也可以从已知的现有算法(例如DQN)中引导,从而实现可解释的改进,从而提高性能。 我们的方法从零开始学习简单的经典控制和网格世界任务,重新发现了时差(TD)算法。从DQN引导下,我们重点介绍了两种学习算法,它们比其他经典控制任务,网格世界类型任务和Atari游戏具有良好的泛化性能。 对学习到的算法行为的分析表明与最近提出的RL算法相似,后者解决了基于价值的方法高估的问题。