加州大学伯克利分校免费RL击败Sota基于奖励的RL

2020-09-22 13:35:02

端到端深度强化学习(DRL)是计算机视觉领域的一种趋势训练方法,在解决以前被认为遥不可及的一系列复杂任务方面已经被证明是成功的。端到端DRL现在正被应用于从真实世界和模拟机器人到复杂视频游戏的各个领域。然而,尽管端到端的DRL方法很有吸引力,但大多数方法都严重依赖奖励功能来学习视觉特征。这意味着,当奖励稀少时,功能学习会受到影响,这在大多数现实世界的场景中都是如此。加州大学伯克利分校(University of California,Berkeley)研究人员的一篇新论文用增强时间对比度(ATC)解决了这一问题,ATC是一种新的无监督学习(UL)任务,用于学习与奖励无关的视觉表征,并且不会降低控制策略。

ATC训练卷积编码器将由短时间差分隔的观测对关联起来。随机移位,在每个训练批次内对观测数据进行随机数据增强。最后,将增强的观测值编码到一个小的潜在空间中,在那里应用对比损失。ATC体系结构由四个学习组件组成:

研究人员在三个视觉上不同的RL基准上对ATC进行了评估-DeepMind控制套件(DMControl)、Arade Learning Environment中的Atari游戏和DeepMind Lab(DMLab)。他们还使用ATC来增强策略上和策略外的RL算法。

在在线设置中,ATC在所有DMControl和DMLab环境中,以及在测试的8个Atari游戏中的5个中,与最先进的端到端强化学习不相上下或表现更好。

该团队还对各种非监督目标进行了基准测试,以学习功能,ATC再次在所有三个环境中与RL的最先进的非监督表示学习算法相匹配或性能更好。

在离线情况下,研究人员探索了ATC学习多任务编码器的能力,证明了ATC学习的功能使培训和测试环境都能有效学习。探索被广泛认为是强化学习中最具挑战性的方面之一,许多幼稚的方法都屈从于指数样本复杂性。虽然无报酬表示学习为改进深度RL代理提供了灵活性和洞察力,但作为一种无监督的方法,它当然缺乏用于指导有监督的、基于奖励的RL方法的训练方向的信息。所提出的ATC标志着一个重要的里程碑,因为在非监督特征上训练的RL第一次与SOTA端到端RL相匹配或优于SOTA端到端RL。本文的“表示学习与强化学习的解耦”一文是在arxiv上完成的。

这份报告让我们看到了中国在与新冠肺炎的战斗中是如何利用人工智能技术的。亚马逊Kindle上也有,在这份报告的同时,我们还推出了一个全球数据库,涵盖12个大流行场景的额外1428个人工智能解决方案。

我们知道你不想错过任何新闻或研究突破。我们订阅我们广受欢迎的时事通讯同步全球AI周刊,以获得每周的AI更新。