发现多样化的运动跳跃策略

2021-04-24 00:06:26

我们提出了一个框架,可以为运动技能进行多样化和自然的运动策略,如高跳跃。这些策略被实现为基于物理字符的控制策略。给定任务性和初始字符配置,物理化和深度增强学习(DRL)的组合为自动控制策略培训提供了合适的起点。为了促进逼真的人类动作的学习,我们提出了一种姿势变形AutoEncoder(P-VAE)来限制自然姿势子空间的动作。在对比度的情况下,通过探索初始字符状态通过采样效率的多样化分集搜索(BDS)算法,可以自然地出现丰富的新颖策略。第二阶段的优化促使新的政策可以进一步丰富所发现的独特策略。我们的方法允许对运动跳跃动作进行多样化和新的策略来发现,例如高跳跃和障碍物跳跃,而不是比前的工作更少奖励工程。