1906年4月14日,迈尔斯兄弟离开旧金山市场街的工作室,登上缆车,开始拍摄一部后来成为标志性短片的电影。这部名为“市场街之旅”(A Trip Down Market Street)的影片是对当时生活的精彩记录:当缆车缓缓行驶时,兄弟俩将相机对准前方,捕捉到了戴着令人震惊的维多利亚式褶边帽子的妇女匆忙穿过铁轨的画面。一名警察挥舞着比利棍棒漫步而过。报童兜售他们的商品。早期的汽车在缆车前急转弯,其中一些是敞篷车,所以我们可以看到他们的司机在里面弹跳。近12分钟后,电影制片人来到渡口大楼前的转盘前,渡口大楼高耸的时钟在四天后的凌晨5点12分停了下来,当时一场大地震和随之而来的大火几乎摧毁了旧金山。
一个多世纪后,一位名叫丹尼斯·希里亚耶夫(Denis Shiryaev)的人工智能极客将“市场街之旅”(A Trip Down Market Street)变成了更神奇的东西。使用各种公开可用的算法,Shiryaev将胶片着色并锐化到4K分辨率(即3840个水平像素乘以2160个垂直像素),并将起伏不定的帧率提高到每秒60帧,这一过程被称为帧插值。由此产生的电影令人着迷。我们终于可以在那些华丽的维多利亚式帽子上看到鲜艳的颜色了。我们可以看到那些报童脸上的嬉皮表情。也许最重要的是,我们可以史无前例地详细地看到…。马匹沿着缆车轨道留在地上的副产品。
而Shiryaev-Neural.Love公司的产品总监,为客户提供人工智能驱动的视频增强-并没有止步于1906年旧金山。他挥舞着他的魔法人工智能魔杖看着另一部历史片,卢米埃兄弟的1895年法语短片,一列火车驶入车站,将乘客洒到站台上。你也可以在1911年穿越纽约市,或者在1972年与阿波罗16号的宇航员一起驾驶月球车环游月球。所有的电影都以惊人的清晰度进行了修饰,让我们现代人对很久以前的生活有了一个迷人的看法。
需要明确的是,你不能把这些称为胶片修复,因为算法不仅仅是去除了不完美的地方-它们实际上是在填补旧的、模糊的、低帧率电影中丢失的数据的近似值。基本上,这些算法是在他们之前的训练基础上编造出来的。例如,处理着色的算法DeOldify对1400多万张图像进行了培训,以建立对世界上物体通常是如何着色的理解。然后,它可以将这些知识应用到旧的黑白电影中,用鲜艳的色调描绘旧的镜头。“这是一件重要的事情,”希里亚耶夫说。“我们称之为增强,因为我们正在训练神经网络。当神经网络在图片中重新绘制时,它会添加一个新的数据层。“。
“所以彩色化就是增强,”他补充道。“扩大规模是一种增强。帧插值是一种增强。“。Shiryaev还消除了视觉噪音-那些瞬间闪现在屏幕上的黑线-也许这可以被认为是一种恢复。但电影档案管理员会嘲笑希里亚耶夫的人工智能魔法的其余部分是一种恢复的想法,因为它叠加了如此多的额外数据,而这些数据中有很大一部分是机器学习猜测,这在历史上不一定是完美的。“我们不想和档案馆的人争论,”希里亚耶夫说。“我们真的很重视他们的工作。”
让我们逐一介绍这些增强功能。DeOldify彩色化算法从神经网络训练过程中学习如何识别某些对象-树木、草、穿着不同衣服的人。它知道哪些颜色通常对应于哪些物体,因此当它在历史黑白电影中识别它们时,它可以猜测它们可能是什么颜色。这个算法无论如何都不是完美的:它只能辨别它在训练中已经见过很多次的物体的颜色。希里亚耶夫说:“我们有时会遇到可怕的旗帜问题,因为它没有接受过这样的训练。”
下一步是升级。该算法从训练成对图像的神经网络中学习,一对图像是高质量的,另一对是低质量的。Shiryaev说:“神经网络试图让这个低质量版本的图像看起来和这个图像的大版本一模一样。”在了解了允许它将低分辨率图像的特定部分转换为更清晰版本的模式后,当该算法查看低分辨率历史电影时,它可以通过分析像素将其提升到更高的分辨率。例如,Shiryaev补充道,“你这里有一个明亮的像素,这里有一个明亮的像素,中间有一个暗像素。这意味着你知道如何把它重新画大四倍。“。
帧插值算法是在一个数据库上训练的
因此,当你向Dain算法展示一段历史视频,比如旧金山的普雷林格档案馆(Prelinger Archives)以每秒16帧的速度扫描的市场街之旅(A Trip Down Market Street)时,系统会查看一帧,然后猜测下一帧应该是什么。它实际上会生成新的帧,以在原始帧之间移动,估计对象在这些间隙帧中的位置。算法重复这样做,直到它达到每秒60帧,所以现在当你回放它时,看起来每个人都移动得更顺畅了。
杨的算法还可以将一部现代电影从每秒30帧提高到疯狂的480帧。然后他可以把它减慢16倍,它仍然运行得很好,而如果他对每秒30帧的电影做同样的事情,它会非常不稳定。只会有太少的帧可以玩。
更不可思议的是,希里亚耶夫的系统可以从无定形的面状斑点中渲染出不同的面孔。下面的原始视频是1910年代在东京拍摄的,质量特别差-有时面孔太模糊而无法辨认。在这里,一个在脸部数据库上训练的神经网络根据它对脸部像素通常是如何排列的知识,猜测模糊的脸部应该如何渲染。“但我们不能说这是准确的,这张脸看起来和100年前一模一样,”希里亚耶夫说。
这就是我们进入棘手领域的地方。就像彩色化和放大一样,填充人脸细节的算法也在为电影增加数据,从某种意义上说,这是对过去的虚构。普雷林格档案馆(Prelinger Archives)的创始人里克·普雷林格(Rick Prelinger)说,这种对历史记录的改变让一些档案工作者感到不安。普雷林格档案馆收集业余视频和其他“昙花一现”的电影,如旧时广告和教育电影。纯粹主义者宁愿将老电影作为文物保存下来,无论质量如何,而不是让它们受到人工智能的突发奇想。
普雷林格本人对此没有问题。他说:“如果有人把蒙克的”呐喊“混搭在一起,或者杜尚在”蒙娜丽莎“上画了胡子,那是它的点缀、注解,是一种混搭。“我们应该可以自由混音。”
这就是说,当谈到希拉耶夫对米尔斯和卢米埃兄弟的历史电影的更新时,“我不知道他们是否真的增加了那么多,”普雷林格补充道。“但这是虚构的,把档案镜头搬到了神秘的山谷里,在那里我们不再能感觉到什么是真实的,什么是不真实的。”他说,这可能会给观众一种错误的印象,认为所有的历史电影都应该看起来如此犀利和充满活力,而实际上,20世纪初的电影制作人正在用最基本的设备工作。当然,时间通常对电影本身并不友好,因为它会在100年的过程中退化。这也是历史-电影的质量说明了它的拍摄方式-纯粹主义者认为应该保留这段历史,而不是用新的数据来“增强”。
但让我们继续深入这个哲学上的兔子洞。希里亚耶夫的增强版虚构了电影拍摄一个世纪后不可知的场景的某些方面。例如,我们不能确定人工智能的颜色是否完全适合那些维多利亚时代的帽子。结果是美好的,但也必然是不完美的。然而,黑白相间的赫基肉干沿着市场街之旅本身不是不完美吗?当时的世界是五颜六色的,人和车在其中畅通无阻。那么,到底哪部电影更真实地代表了这一场景:原版还是希里亚耶夫的版本?
从某种意义上说,这些人工智能的增强延续了无声电影时代的传统。当时,每个观众的体验都是独一无二的。不同的电影院经营者雇佣了他们自己的伴奏来配合这部电影。这些音乐家通常只是即兴创作,直到1908年电影业开始标准化伴奏乐谱。音乐增加了戏剧性,并帮助淹没了投影仪的喧嚣-这难道不会增强电影的效果吗?难道不是每个即兴伴奏的人都在为剧院观众的经历编造自己的旋律吗?Shiryaev正在做着大致相同的事情,将旧电影重新混入他对20世纪初生活真实面貌的愿景中(或者说,人工智能的愿景)。“人们通常会说,‘这是你能拥有的最接近时空旅行的体验,’”希里亚耶夫说。
说到这里。电影制作人无时无刻不在玩弄一个场景的样子,把我们带到一个不同的时代。“还记得在”脊椎踢踏舞“中,”普雷林格问道,“当他们回去谈论它过去是如何像利物浦的嬉皮士组合,然后是一个迷幻组合时,他们让视频看起来就像他们当时的样子?”这是乐趣的一部分。“。
普雷林格补充说,没有理由纯形式的历史电影不能与增强版的历史电影共存。他说:“我认为完全按原样再现图像有很棒的地方。”“但我并不反对有人拿它来娱乐。它让人们意识到这些东西就在那里。“。
🎙️收听“连线”,这是我们关于未来如何实现的新播客。收看最新剧集,订阅📩时事通讯,跟上我们所有节目的最新动态。
🏃🏽♀️想要最好的健康工具吗?看看我们Gear团队挑选的最好的健身跟踪器、跑步装备(包括鞋子和袜子)和最好的耳机