强化学习作为一个大序列建模问题

2021-06-05 02:54:42

下载PDF摘要:钢筋学习(RL)通常涉及估计阶段策略或单步模型,利用马尔可夫属性及时解决问题。但是,我们还可以将RL视为一个定义问题问题,目标是预测一系列动作,即将其释放到一系列高奖励。通过这种方式查看,它是诱人的,无论是强大的,高容量序列预测模型是否在其他域名,如自然语言处理,也可以为RL问题提供和有效的解决方案。为此,我们探索豪尔尔可以重新命名为"一个大序列建模"问题,使用最艺术变压器架构来模拟各个国家,行动和奖励的经销商。作为序列造型提出的解决方案显着简化了一系列设计决策:我们不会更换单独的行为策略约束,正如在先前工作的onoffline模型RL中一样常见,并且我们不再需要Ensembles或其他epistexyCyRainty估计,如前所述在基于模型的RL上工作。所有这些角色都由相同的变压器序列模型填充。在OuRexTimentime中,我们展示了这种方法的灵活性横跨地平线动态预测,仿制学习,目标条件的RL,Andoffline RL。