2016年,我们推出了AlphaGo,这是第一个在古老的围棋游戏中击败人类的人工智能项目。它的继任者AlphaZero和MuZero都代表着在追求通用算法方面迈出了重要的一步,用更少的预定义知识掌握了更多的游戏。例如,穆泽罗在不需要被告知规则的情况下就掌握了国际象棋、围棋、Shogi和Atari。但到目前为止,这些特工一直专注于解决游戏。现在,为了追求DeepMind解决智能问题的使命,MuZero通过优化YouTube上的视频,向掌握现实世界任务迈出了第一步。
在今天发布的一份预印本中,我们详细介绍了我们与YouTube的合作,以探索MuZero改善视频压缩的潜力。分析家预测流媒体视频将占2021互联网流量的绝大部分。随着CVID2019冠状病毒疾病的流行和未来互联网流量的增长,视频压缩是一个日益重要的问题,也是应用强化学习(RL)来改善挑战性领域的最新领域的自然领域。自从YouTube的一部分实时流量投入生产以来,我们已经展示了一组大型、多样化的视频的平均比特率降低了4%。
大多数在线视频都依赖一个名为编解码器的程序来压缩或编码视频源,通过互联网将其传输给观看者,然后解压缩或解码播放。这些编解码器为视频中的每一帧做出多个决策。几十年的手工工程已经用于优化这些编解码器,这些编解码器负责实现现在互联网上可能的许多视频体验,包括视频点播、视频通话、视频游戏和虚拟现实。然而,由于RL特别适合于编解码器中的顺序决策问题,我们正在探索学习RL的算法可以如何提供帮助。
我们最初的重点是VP9编解码器(特别是开源版本libvpx),因为它被YouTube和其他流媒体服务广泛使用。与其他编解码器一样,使用VP9的服务提供商需要考虑比特率——发送视频每帧所需的1和0的数量。比特率是服务和存储视频所需的计算量和带宽的主要决定因素,它影响从加载视频所需的时间到视频的分辨率、缓冲和数据使用等各个方面。
在VP9中,通过速率控制模块中的量化参数(QP)最直接地优化比特率。对于每个帧,此参数确定要应用的压缩级别。给定一个目标比特率,视频帧的QP将按顺序决定,以最大化整体视频质量。直观地说,应该为复杂场景分配较高的比特率(较低的QP),为静态场景分配较低的比特率(较高的QP)。QP选择算法解释视频帧的QP值如何影响其余视频帧的比特率分配和整体视频质量。RL在解决这样一个连续的决策问题时尤其有用。
MuZero通过将搜索能力与学习环境模型和相应计划的能力相结合,在各种任务中实现超人的性能。这在大型组合动作空间中尤其有效,使其成为视频压缩中速率控制问题的理想候选解决方案。然而,要让MuZero在这个现实世界的应用程序上工作,需要解决一组全新的问题。例如,上传到YouTube等平台的一组视频在内容和质量上各不相同,任何代理都需要对所有视频进行概括,包括部署后的全新视频。相比之下,棋盘游戏往往只有一个已知的环境。许多其他指标和约束会影响最终用户体验和比特率节省,例如PSNR(峰值信噪比)和比特率约束。
为了利用MuZero解决这些挑战,我们创建了一种称为“自我竞争”的机制,通过比较代理的当前性能和历史性能,将视频压缩的复杂目标转换为一个简单的赢家/输家信号。这使我们能够将一组丰富的编解码器要求转换为一个简单的信号,该信号可以由我们的代理进行优化。
通过学习视频编码的动态并确定如何最好地分配比特,我们的MuZero速率控制器(MuZero RC)能够在不降低质量的情况下降低比特率。QP选择只是编码过程中众多编码决策之一。虽然几十年的研究和工程已经产生了高效的算法,但我们设想了一种能够自动学习做出这些编码决策以获得最佳率失真权衡的算法。
除了视频压缩,在研究环境之外应用MuZero的第一步是我们的RL代理如何解决现实问题的一个例子。通过创建具有一系列新功能的代理来改进跨领域的产品,我们可以帮助各种计算机系统变得更快、更不密集、更自动化。我们的长期愿景是开发一种单一算法,能够在不同领域优化数千个真实世界的系统。
与撰稿人合作完成的工作:顾承杰、安东·热尔诺夫、阿莫尔·曼达恩、玛丽贝思·劳赫、王妙森、薛花拉、尚文迪、彭德瑞克、雷内·克劳斯、江清汉、陈成、韩景宁、陈安琪、丹尼尔·J·曼科维茨、朱利安·施里特维泽、托马斯·休伯特、奥利奥·维亚尔斯、杰克逊·布罗谢、蒂莫西·曼、罗伯特·董、,史蒂夫·加夫尼