您可以称其为“计算机科学家的报复”。现在,一种算法已经成为掌握极难的Atari 2600游戏《蒙特祖玛的复仇》的头条新闻,现在可以击败更多游戏,获得近乎完美的得分,并帮助机器人探索现实环境。 Pakinam Amer报告。
无论您是职业游戏玩家还是不时地在这个世界上dip脚趾,都有可能您曾经在玩电子游戏时被卡住,甚至被一次光荣地击败了。我知道我有也许是在您沮丧的情况下,您将控制台稍微踢了一下。也许您是从控制器上拿出来的,或者-如果您是像我这样的80年代的孩子-则是支付操纵杆费用。
现在,一群来自Uber AI的计算机科学家正在为我们所有人一直报仇。他们使用一系列标记为“ Go-Explore”的简单算法,回过头来击败了一些最臭名昭著的难度很大的Atari游戏,这些游戏的块状像素和八位音调曾经挑战,嘲弄甚至激怒了我们。 [Adrien Ecoffet等,先返回,然后探索]
但是,重新实现80年代和90年代的那些游戏,除了实现童年时代的幻想外,还能实现什么?
根据在《自然》杂志上发表论文的科学家的说法,尝试解决需要复杂而艰苦探索的视频游戏,可以让人们更好地学习算法。它们变得更加智能,并在实际情况下表现更好。
“ Go-Explore的优点之一是它不仅限于视频游戏,而且还可以将其应用于机器人等实际应用中。”
那就是Uost AI的主要研究人员之一Joost Huizinga。 Joost与Adrien Ecoffet和其他科学家一起开发了Go-Explore。
那么它实际上是如何工作的呢?让我们从基础开始。当AI以像素形式处理世界图像时,它不知道哪些变化应该计算,哪些变化应该忽略。例如,在探索所述游戏时,在游戏环境中天空中云的图案的微小变化可能并不重要。但是找到丢失的钥匙肯定是。但是对于AI来说,两者都涉及改变那个世界中的一些像素。
这就是深度强化学习的用武之地。这是机器学习的一个领域,它可以帮助代理分析环境,以通过外部和内在奖励的形式通过反馈信号来决定重要的事情和哪些行动。
“这基本上是动物不断做的事情。您可以想象,如果您触摸热炉,会立即收到强烈的负面反馈,例如“嘿,这是您将来不应该做的事情。”如果您吃了一块巧克力,假设您喜欢巧克力,您会立即得到积极的反馈信号,例如“嘿,也许将来我应该更多地寻找巧克力。”机器学习也是如此。这些都是代理商必须采取一些行动,然后才可能赢得一场比赛的问题。”
创建一种算法,可以用陷阱,越过障碍物,收集奖励和避免陷阱来导航房间,这意味着您必须创建一个好奇的人工智能,并且可以以一种智能的方式探索环境。这有助于它决定什么使它更接近目标或如何收集难以获得的宝藏。
强化学习对此非常有用,但并非在每种情况下都是完美的。
“在实践中,强化学习非常有效,如果您有非常丰富的反馈意见-如果您能说,‘嘿,这一举动是好的,那一步是不好的,这一步是好的,那一步是坏的。”
在诸如蒙特祖玛的复仇之类的Atari游戏中,游戏环境提供的反馈很少,其奖励可能会故意导致死胡同。随意探索太空并不会削减它。
“您可以想象,在蒙特祖玛的复仇之类的视频游戏中尤其如此,有时您必须采取许多非常具体的动作-您必须躲避危险,跳过敌人-您可以想象随机动作,例如,'嘿,也许我应该跳到这里,”在这个新地方,这将导致“游戏结束”,因为那是一个不好的地方,尤其是如果您已经相当了解游戏的话。因此,假设您想探索第二级:如果您开始在第一级中随机采取行动而只是随机死亡,那么您在第二级探索中将不会取得进展。”
您不能仅仅依靠“内在动机”,就人工智能而言,它通常来自于探索新的或不寻常的情况。
“比方说,您有一个机器人,它可以左走进屋子,然后右走进屋子。假设一开始它向左走,向左探索,这意味着它会暂时获得这种内在奖励。它并没有完全向左探索,并且在某个时刻结束了情节,并在起居室重新开始。这次是正确的。它进入右边的房间相当远。它并没有完全探索它。然后回到起始房间。现在的问题是,它已经左右走了,而且基本上已经有了起步,因此不再从那里获得太多内在动力。”
在获得奖励之后,从先前曾去过的地方撤离在困难的游戏中是行不通的,因为您可能会遗漏重要的线索。
Go-Explore通过不奖励某些动作来解决此问题,例如去新的地方。相反,它使代理能够明确地``记住''游戏中有希望的位置或状态,从而鼓励对空间进行``足够的探索''而没有或几乎没有提示。
一旦代理保存了该状态的记录,便可以重新加载该状态并有意探索-Adrien和Joost所说的“先返回再探索”原则。
根据阿德里安(Adrien)的看法,他依靠另一种学习形式,即模仿学习,即代理可以模仿人工任务,他们的AI可以走很长一段路,特别是在机器人技术领域。
“您可以训练的世界与现实世界之间存在差异。因此,举一个例子,如果您正在使用机器人技术:您知道,在机器人技术中,可以对您的机器人环境进行仿真。但是,当然,您想让机器人在现实世界中运行,对吗?那你该怎么办呢?当然,如果您处在这种情况下,则模拟与环境并不完全相同,因此仅具有可以在模拟中起作用的功能并不一定足够。我们在工作中证明了这一点。我们正在做的是我们正在使用被称为``模仿学习''的现有算法。它是什么只是将现有的解决方案用于问题,并确保即使在您遇到问题时也可以可靠地使用该解决方案。知道,您的环境会有细微的变化,包括,它是真实世界而不是模拟。”
Adrien和Joost说,他们模型的优势在于其简单性。它可以适应并轻松扩展到实际应用中,例如语言学习或药物设计。