我们提出pixelNeRF,这是一种学习框架,可预测以以下条件为前提的连续神经场景表示: 一或几个输入图像。 现有方法 构建神经辐射场[Mildenhall等。 2020] 涉及独立优化每个场景的表示,需要许多校准的视图和大量的计算时间。 我们朝着解决这些缺点迈出了一步 通过引入一种以完全卷积的方式在图像输入上调节NeRF的体系结构。这允许在多个场景之间训练网络以事先学习场景,从而使它能够以前馈方式从稀疏的一组视图(少至一组)执行新颖的视图合成。
利用NeRF的体积渲染方法,我们的模型可以直接从图像进行训练,而无需明确的3D监督。 我们在ShapeNet基准上进行了广泛的实验,以解决带有保留对象以及整个看不见类别的单一图像新颖视图合成任务。 我们通过在多对象ShapeNet场景和DTU数据集中的真实场景上进行演示来进一步证明pixelNeRF的灵活性。在所有情况下,对于新颖的视图合成和单幅图像3D重建,pixelNeRF均优于当前的最新基线。
使用多视图图像监督,我们将单个pixelNeRF训练为13个最大的对象类别 为了在看不见的对象上执行新颖的视图合成,请使用ShapeNet中的对象。 我们的方法在视图空间(而不是规范的)中运行,并且不需要测试时间优化。 然而,就图像指标而言,我们在数量上显着优于现有方法,如本文所示。
由于我们的方法既不需要规范空间,也不需要对象级信息(例如遮罩), 它可以表示具有多个对象的场景,在该场景中无法使用规范的空间, 无需修改。 我们的方法还可以在测试时无缝集成多个视图,以获得更好的结果。 由于缺少一致的规范空间,SRN在这里的表现非常差。
我们证明了我们的方法还可以对DTU MVS数据集中更复杂的真实场景进行宽基线视图合成, 当在推理时仅给出1-3个视图时,将产生合理的结果。 而且,它是前馈的,无需针对每个场景优化测试时间。
为了演示泛化功能, 我们将经过ShapeNet飞机,汽车和椅子训练的模型应用于看不见的ShapeNet类别。
NeRF是在Mildenhall等人中引入的。 (2020)局部图像特征用于相关隐式曲面的处理中 Saito等。 (2019) 和 徐等。 (2019)我们的MLP架构是 受启发 DVR我们的一部分 PyTorch NeRF实现取自 kwea123另请参见并发工作 GRF 其中还介绍了NeRF的图像功能,显示了可用大量视图时的图像功能甚至可以改善NeRF。
@misc {yu2020pixelnerf, title = {pixelNeRF:一幅或几幅图像的神经辐射场}, 作者= {Alex Yu和Vickie Ye和Matthew Tancik和Angjoo Kanazawa}, 年= {2020}, } 我们感谢Shubham Goel和Hang Gao对本文进行评论。 我们也感谢 Emilien Dupont和Vincent Sitzmann进行了有益的讨论。 该网站的灵感来自MichaëlGharbi的模板。