ST-NERF:用于视频合成的合成和编辑

2021-05-10 11:07:00

中国研究财团开发了将编辑和合成能力带来了去年的最热门图像综合研究领域的技术 - 神经辐射田(NERF)。该系统是题为ST-NERF(时空相干神经辐射区域)。

似乎是下面的图像中的物理摄像机平移实际上只是通过在4D空间中存在的视频内容上的视点来实现用户“滚动”。 POV没有被锁定在视频中描绘的人们的性能,其移动可以从180度半径的任何部分查看。

视频内的每个方面都是离散的捕获元件,融合到可以动态探索的凝聚力场景中。

另外,可以容易地改变每个方面的时间行为,减慢,向后运行,或以任何数量的方式操作,打开校准的路径以及极高的可解释性。

没有必要旋转表演者或环境,或者表演者盲目地执行他们的动作,并脱离预期场景的上下文。相反,镜头自然地通过覆盖180度的16个摄像机阵列自然捕获:

ST-NERF是在神经辐射领域(NERF)的研究创新,机器学习框架,通过广泛的训练(尽管单视点捕获也是NERF研究的子扇区,但是多个观点捕获的机器学习框架被合成到可导航的虚拟空间中。

在过去的九个月内,对NERF的兴趣已经变得激烈,并将维持的衍生或探索性NERF文件列表目前列出了六十个项目。

本文是上海科技大学和DGENE数字技术研究人员合作,并在开放审查中受到了一些热情的接受。

ST-NERF提供了多种创新,在以前的ML派生的可通航视频空间中提供了多种创新。并非最不重要的是,只有16个摄像机实现了高水平的现实主义。虽然Facebook的Dynerf只使用了两个相机,但它提供了更具限制的可通航弧。

除了缺乏编辑和复合个体方面的能力外,Dynerf在计算资源方面特别昂贵。相比之下,中国研究人员说,与最先进的视频生成模型DVDGAN和Dynerf等密集系统相比,他们的数据的培训费用为900-3,000美元。

审查人员还指出,ST-NERF在从图像合成过程中解耦了学习运动过程的重大创新。这种分离是启用和合成的是什么,先前的接近通过比较来限制和线性。

虽然16个摄像机是一个非常有限的阵列,但研究人员希望通过使用代理预扫描的静态背景以及更多的数据驱动的场景建模方法,进一步将此数量进一步下降。他们还希望纳入重新照明能力,最近是Nerf Research的创新。

在学术CS论文的背景下,倾向于侵入新系统的实际可用性,即使研究人员承认st-nerf的局限性也是不寻常的。

他们观察系统当前不能在场景中分别为特定的对象,因为镜头中的人通过旨在识别人类而不是物体的系统分段为个体实体 - 似乎很容易被YOLO和类似解决的问题框架,具有提取已经完成的人类视频的更加困难的工作。

虽然研究人员指出,目前无法生成慢动作,但似乎很少有很少的方法可以使用帧插值中的现有创新实现这一目标,如迪恩和普雷。

与所有NERF实现一样,在许多其他电脑视觉研究部门中,St-Nerf可以在严重遮挡的情况下失败,其中受试者被另一个人或物体暂时遮挡,并且可能难以持续追踪或准确地轨道之后重新获得。与其他地方一样,这种困难可能需要等待上游解决方案。与此同时,研究人员承认在这些遮挡框架中是必要的。

最后,研究人员遵守人类分割程序目前依赖颜色差异,这可能导致两个人的无意融合到一个分割块 - 一个绊倒块不限于ST-NERF,而是用于所使用的库的固有,但是可能通过光学流量分析和其他新兴技术来解决。