DeepMind详细介绍了MuZero,该技术于2019年发布并紧随AlphaZero之后发布,AlphaZero可以在不知道规则的情况下掌握游戏,并致力于YouTube视频压缩

2020-12-24 21:54:07

DeepMind的最新AI程序可以实现超人的性能在执行任务时无需给出规则。

像研究中心较早的人工智能代理一样,MuZero在数十种旧的Atari电子游戏,国际象棋以及Go和Shogi的亚洲棋盘游戏中也获得了精通。

它已经投入实际使用,以找到一种新的视频编码方式,这可能会大大降低YouTube的成本。

"现实世界杂乱无章,没有人给我们提供有关其工作原理的规则手册, DeepMind的主要研究科学家David Silver告诉英国广播公司。

"实际上,我们第一次拥有了一个系统,该系统能够建立自己对世界运转方式的理解,并利用这种理解来进行您之前已经看到的这种复杂的预见计划。用于象棋这样的游戏。

“ [它]可以从零开始,仅通过反复试验就可以发现世界规则,并使用这些规则来实现某种超人的表现。

南安普敦大学计算机科学教授,政府AI理事会成员温迪·霍尔(Wendy Hall)表示,这项工作标志着向前迈出了重要的一步,但引起了人们的关注。

DeepMind的工作成果令人震惊,我为他们将来能够实现的资源感到惊讶,"她说。

"我担心的是,尽管DeepMind的团队不断努力提高算法的性能并应用结果以造福社会,但他们并未花太多精力思考工作中潜在的意外后果。

"我怀疑喷气发动机的发明人在进行发明时会考虑全球污染。我们必须在AI技术的发展中取得平衡。"

位于伦敦的DeepMind于2019年首次发布了MuZero的详细信息,但一直等到《自然》杂志上发表论文进行讨论。

它代表了公司在深度强化学习中的最新成功-该技术使用多层神经网络让机器通过反复试验的过程来自学新技能,从而获得奖励。取得成功,而不是被告知要做什么。

一个称为DQN的程序,该程序仅使用像素和游戏分数作为输入就可以在Atari视频游戏中达到人性化的水平

AlphaGo,该程序经过历届比赛的训练后,在2016年的一项开创性比赛中击败了围棋大师Lee-Sedol 4-1

AlphaGo Zero,从零开始对其进行自我培训,仅在提供基本游戏规则后,第二年性能就超过了AlphaGo

AlphaZero,于2017年推广了AlphaGo Zero,以便可以将其应用于其他游戏,包括国际象棋和将棋

最近,DeepMind(与Google的母公司共同拥有)通过采用这些技术,在蛋白质折叠方面取得了突破,这可以为抗击疾病的新药铺平道路。

西尔弗博士说,DeepMind已经在使用它来尝试发明一种新型的视频压缩。

"如果您查看互联网上的数据流量,其中大部分是视频,那么如果您可以更有效地压缩视频,则可以节省大量资金,"他解释。

" MuZero的初步实验表明您实际上可以取得可观的收益,对此我们感到非常兴奋。

他拒绝透露Google将在何时何地使用此功能,而拒绝透露更多细节将在新的一年中发布。

但是,由于Google拥有世界上最大的视频共享平台-YouTube,因此它有可能节省大量资金。

DeepMind并非第一个尝试创建代理的人,该代理既可以对放置该代理的环境进行建模,又可以执行树搜索-通过向前看几个步骤来确定最佳结果,从而决定如何进行操作。

但是,先前的尝试一直在努力解决“视觉丰富”的复杂性。挑战,例如Pac-Man女士等旧视频游戏带来的挑战。

该公司认为它之所以成功,是因为MuZero仅尝试对环境环境进行建模,这对于其决策过程至关重要,而不是采用更广泛的方法。

                "它在博客中解释。

《自然》杂志报道说,尽管每步进行的树搜索计算量较少,但MuZero在玩Go方面被证明比AlphaZero稍好。

它说,在旧游戏机上测试的57款游戏中,有42款的性能优于R2D2-领先的Atari播放算法,无法模拟世界。而且,它仅在完成了一半的培训步骤之后就这样做了。

希尔弗博士解释说,两项成就都表明,MuZero能够从更少的数据中有效地挖掘出更多见识。 想象一下,您有一个机器人,它在现实世界中徘徊,运行起来很昂贵, 他说。 "因此,您希望它从少量经验中学到尽可能多的东西。 MuZero能够做到这一点。" 他补充说,其他潜在用途包括下一代虚拟助手,个性化医学和搜索与救援技术。