工具将世界地标照片转化为4D体验

2020-08-27 06:51:31

康奈尔大学的研究人员利用罗马特雷维喷泉(Trevi Fountain)或纽约市岩顶(Top Of The Rock)等世界地标建筑的公开游客照片,开发出了一种可操作的3D图像,显示了外观随时间的变化。

这种方法利用深度学习来摄取和合成数以万计的照片,其中大部分是没有标记和日期的照片,解决了计算机视觉专家60年来一直未能解决的问题。

康奈尔理工大学(Cornell Tech)计算机科学副教授诺亚·斯奈弗利(Noah Snaful)说,“这是一种新的场景建模方式,它不仅可以让你移动头部,从不同的角度看到喷泉,还可以让你控制改变时间。”诺亚·斯奈弗利是“全视功能的克劳德采样”(CrowdSamples The Plenoptical Function)一书的资深作者,该作品实际上是在8月23-28日举行的欧洲计算机视觉会议(European Conference On Computer Vision)上发表的。

“如果你真的去了特雷维喷泉度假,它的样子将取决于你什么时候去--晚上,它会被底部的泛光灯照亮。下午,除非你在阴天去,否则天气会很晴朗。“斯奈弗利说。“我们根据一天中的时间和天气,从这些杂乱无章的照片收藏中了解到了整个出场范围,这样你就可以在探索整个范围的同时,在场景中四处走动。”

对传统的计算机视觉来说,以照片逼真的方式表示一个地方是一项挑战,部分原因是要复制的纹理数量太多。斯奈弗利说:“真实世界的外观是如此多样化,有不同种类的材料--闪闪发光的东西,水,薄的结构。”

另一个问题是现有数据的不一致。描述从空间和时间的每一个可能的观点看东西的样子-被称为全光功能-将是一项可以管理的任务,数百个网络摄像头贴在场景周围,日夜记录数据。但由于这是不切实际的,研究人员不得不想出一种补偿的方法。

“可能没有下午4点拍的照片。从数据集中的这个确切的角度来看。所以我们必须从晚上9点拍的照片中学习。在一个地点,以及4:03从另一个地点拍摄的照片,“斯奈弗利说。“我们也不知道这些照片拍摄时间的粒度。但使用深度学习可以让我们推断出在任何给定的时间和地点的场景会是什么样子。“。

研究人员引入了一种名为深度多平面图像的新场景表示法,以插值四个维度的外观-3D,外加随时间的变化。他们的方法在一定程度上受到了华特迪士尼公司在20世纪30年代开发的经典动画技术的启发,这种技术使用多层透明胶片来创建3D效果,而不需要重新绘制场景的每一个方面。

斯奈弗利说:“我们使用在2D动画中创建3D效果的相同想法,在真实场景中创建3D效果,通过将其与游客照片中所有不同的尺寸进行拟合,来创建这种深层次的图像。”“有趣的是,它在某种程度上源于动画中使用的这种非常古老、经典的技术。”

在这项研究中,他们表明,这个模型可以被训练成使用Flickr和Instagram等网站上发现的大约5万张公开可用的图像来创建场景。这种方法对计算机视觉研究以及虚拟旅游都有意义-在几乎没有人可以亲自旅行的时候,这一方法特别有用。

“你可以感觉到自己真的在那里,”斯奈弗利说。“它在一系列场景中效果出奇地好。”

论文的第一作者是康奈尔理工大学博士生李正琪。计算与信息科学系计算机科学助理教授阿贝·戴维斯(Abe Davis)和康奈尔理工大学(Cornell Tech)博士生仙文琪(音译)也做出了贡献。

这项研究部分得到了慈善家、谷歌前首席执行官埃里克·施密特(Eric Schmidt)和温迪·施密特(Wendy Schmidt)的支持,并得到了施密特未来项目(Schmidt Futures Program)的推荐。