软件可以从随机的互联网照片重建3D空间

2020-08-11 02:21:07

谷歌研究人员使用从互联网和机器学习中拍摄的照片,重建了世界各地著名地标令人难以置信的详细3D场景。

在该项目的gihub页面上,研究人员分享了柏林的勃兰登堡门、巴黎的Sacré-Cœur和罗马的特雷维喷泉的3D场景-所有这些都是从Flickr等网站拍摄的照片创建的。结果是令人印象深刻的3D渲染,其中摄像机的视图可以移动,场景的外观可以通过不同的照明效果进行更改。

研究人员最近在arxiv预印服务器上发表了一篇题为“荒野中的神经:不受限制的照片收集的神经辐射场”的论文,分享了他们的方法。据该报报道,这种被他们命名为NERF-W的方法建立在神经辐射场(NERF)的基础上,NERF也可以用来从照片集合中重建3D场景,但如果照片是在受控环境之外拍摄的,可能会遇到困难。

“神经辐射场(NERF)方法隐含地在神经网络的权重内模拟场景的辐射场和密度。然后使用直接体绘制来合成新的视图,在一系列具有挑战性的场景中显示出前所未有的保真度,“研究人员在他们的论文中写道。

“然而,NERF只被证明在受控设置下工作良好:场景是在短时间内捕捉到的,在此期间照明效果保持不变,场景中的所有内容都是静态的,”该报写道。

研究人员继续解释说,Nerf在使用超出这些参数的图像时可能会遇到困难-例如,由不同人拍摄并发布到Flickr上的特雷维喷泉(Trevi Fountain)的一组游客照片。这是因为光线变化或图像曝光或后处理等因素造成的差异。此外,来自互联网的照片通常包含移动的物体,如人或汽车。

“两位摄影师可能站在同一地点,拍摄同一地标,但在这两张照片之间,世界可能会发生重大变化:汽车和行人可能会移动,施工可能会开始或结束,季节和天气可能会改变,太阳可能会在天空中移动,”该报写道。

然后,生成的模型可能包含重影、过度平滑和其他瑕疵。作者在论文中解释说,NERF-W通过引入扩展来解决这个问题,这些扩展软化了NERF关于世界上的事物保持静态的假设,导致了更好的结果。

使用NERF-W的结果是增强现实和虚拟现实应用程序经常需要的逼真的3D重建类型,这些重建是使用来自网络的东西创建的。

签署“色情通讯”,即表示您同意接收来自“色情通讯”的电子通讯,其中有时可能包括广告或赞助内容。