激光:学习潜在的动作空间,以实现高效的加强学习

2021-04-04 20:24:36

下载PDF摘要:学习操作任务的过程强烈依赖于用于探索的actionsPace:在不正确的动作空间中提出,解决了强化学习的任务可能效率低下。此外,相同任务系列的类似任务或实例在最有效的动作空间上施加潜在的歧视混合:任务家庭可以在罗布托的整个动作空间的歧管中的动作中获得任务系列,得到我们呈现激光的这些见解,一种方法学习潜在的措施,以获得高效的强化学习。激光将学习问题分解为两个子问题,即行动空间学习和新动作空间的策略。它利用来自类似操作TaskInstances的数据,无论是在策略学习期间的脱机专家或在线,都是从这些轨迹的绘图从原始映射到潜在的actionPace。激光被培训为变分编码器 - 解码器模型,以将Raintacle映射到解开的潜在动作空间,同时保持ActionReconstruction和潜在空间动态一致性。我们在模拟中评估激光对TwoCtact的机器人任务,并分析了在所产生的潜在动作空间中的Policylearning的益处。与原始动作空间相比,我们展示了改进的SampleeFiby,从而从更好地对准Trace空间,我们观察到Thelned Action空间歧管的可视化。其他详细信息:此HTTPS URL