神经超采样技术在实时绘制中的应用

2020-07-04 00:56:02

虚拟现实中的实时渲染带来了一组独特的挑战-其中最主要的挑战是需要支持照片级真实感效果,实现更高的分辨率,以及达到比以往任何时候都更高的刷新率。为了应对这一挑战,Facebook Reality Labs的研究人员开发了DeepFocus,这是我们在2018年12月推出的一种渲染系统,它使用人工智能在各种焦点耳机上创建超逼真的视觉效果。在今年的虚拟SIGGRAPH大会上,我们将介绍这项工作的下一个篇章,这将揭开我们为VR创造未来高保真显示器道路上的一个新里程碑。

我们的SIGGRAPH技术论文名为“用于实时渲染的神经超采样”,介绍了一种将低分辨率输入图像转换为高分辨率输出以进行实时渲染的机器学习方法。此上采样过程使用神经网络,对场景统计数据进行训练,以恢复清晰的细节,同时节省在实时应用程序中直接渲染这些细节的计算开销。

我们的方法是第一个学习到的超采样方法,它实现了渲染内容的16倍高空间和时间保真度的显著超采样,远远超过了以前的工作。

将渲染的低分辨率颜色输入与引入的神经超采样方法生成的16倍超采样输出进行比较的动画。

为了降低高分辨率显示器的渲染成本,我们的方法从像素比所需输出少16倍的输入图像开始工作。例如,如果目标显示器的分辨率为3840×2160,则我们的网络从游戏引擎渲染的960×540输入图像开始,并将其向上采样到目标显示器的分辨率,作为后处理。

虽然已经有大量关于照片图像的学习上采样的研究,但没有一项研究直接涉及渲染内容(如视频游戏引擎生成的图像)的独特需求。这是由于渲染图像和摄影图像之间在图像形成方面的根本差异。在实时渲染中,每个采样都是空间和时间上的一个点。这就是为什么呈现的内容通常是高度锯齿的,产生锯齿状的线条和其他采样伪像,在本文的低分辨率输入示例中可以看到。这使得渲染内容的上采样既是反走样问题又是插值问题,这与计算机视觉社区在现有超分辨率研究中很好地研究的去噪和去模糊问题形成了鲜明对比。输入图像是高度混叠的,并且在要内插的像素处信息完全丢失,这一事实对产生用于呈现内容的高保真和时间相干重建提出了重大挑战。

用作神经超级采样方法输入的渲染属性示例-颜色、深度和密集运动向量-以低分辨率渲染。

另一方面,在实时渲染中,我们可以获得比摄像机产生的彩色图像更多的图像。正如我们在DeepFocus中所展示的,现代渲染引擎还提供辅助信息,如深度值。我们观察到,对于神经超采样,由运动矢量提供的附加辅助信息被证明是特别有影响的。运动矢量定义了连续帧中的像素之间的几何对应。换句话说,每个运动向量都指向一个子像素位置,其中一帧中可见的曲面点可能会出现在前一帧中。这些值通常由计算机视觉方法对摄影图像进行估计,但这样的光流估计算法容易产生误差。相反,渲染引擎可以直接生成密集的运动矢量,从而为应用于渲染内容的神经超级采样提供可靠、丰富的输入。

我们的方法建立在上述观测的基础上,并将附加的辅助信息与一种新的时空神经网络设计相结合,该设计旨在最大化图像和视频质量,同时提供实时性能。

在推理时,我们的神经网络将以低分辨率渲染的当前帧和多个先前帧的渲染属性(颜色、深度图和每帧密集的运动矢量)作为输入。网络的输出是对应于当前帧的高分辨率彩色图像。该网络用有监督的学习进行训练。在训练时,提供与每个低分辨率输入帧配对的使用反走样方法以高分辨率绘制的参考图像作为用于训练优化的目标图像。

示例结果。从上到下显示渲染的低分辨率颜色输入、所介绍方法的16倍超采样结果以及脱机渲染的目标高分辨率图像。

示例结果。从上到下显示渲染的低分辨率颜色输入、所介绍方法的16倍超采样结果以及脱机渲染的目标高分辨率图像。

示例结果。从左到右显示渲染的低分辨率颜色输入、所介绍方法的16倍超采样结果以及脱机渲染的目标高分辨率图像。

神经绘制在AR/VR领域具有很大的发展潜力。虽然这个问题很有挑战性,但我们希望鼓励更多的研究人员在这个主题上工作。随着AR/VR显示器达到更高的分辨率、更快的帧速率和增强的照片真实感,神经超级采样方法可能是通过从场景数据推断细节来再现清晰细节的关键,而不是直接渲染它们。这项工作为高分辨率虚拟现实的未来指明了方向,这不仅仅是关于显示器,还包括实际驱动它们所需的算法。

阅读全文:用于实时渲染的神经超级采样,Lei肖,Salah Nouri,Matt Chapman,Alexander Fix,Douglas Lanman,Anton Kaplanyan,ACM SIGGRAPH 2020。