照相馆的灭亡

2020-07-28 21:21:28

我们都喜欢好看的照片。摄影工作室和摄影的历史可以追溯到19世纪第一台相机。最早的摄影工作室利用画家的照明技术来创作肖像。在我的国家,一代又一代的印度人会聚集在摄影棚的灯光下,为了得到那张完美的全家福。从那时起,我们走了一段令人震惊的距离。

今天,这些负责拍摄许多家庭和他们的肖像的照相馆几乎消失了。有抱负的模特、商业目录,甚至是愿意介入获取护照照片前往西部的最大家庭,都几乎完全枯竭了。具有讽刺意味的是,我们点击的照片比以往任何时候都多,分享这些照片的频率也比以往任何时候都要高。

考虑到过去十年来技术的变化,该行业的颠覆并不令人惊讶。这种转变有两个截然不同的阶段。

当iPhone带着摄像头发布时,所有其他制造商都效仿了;这些小型传感器很有用,但产生高质量图像的能力有限。早期的Instagram等应用程序用滤镜弥补了图像质量的不足,这使得这款应用程序广受欢迎。然而,自Instagram早期以来,智能手机摄像头的改进速度一直很快。早期让这款应用流行的不再是一项经常使用的功能,因为用智能手机拍摄的照片质量已经呈指数级提高。

在前数字时代的印度,大多数为迎合客户而开张的照相馆都是借来的时间。在全球范围内,这些制片厂的数量现在都在减少。在自拍时代,照相馆注定是一项业务,在那里,观看和点击的行为都是为了一个单一的结果-如何通过点击按钮和在电脑上下载文件的速度为客户拿出一张照片。在自拍时代,照相馆注定是一项业务,它的观看和点击行为都是为了一个单一的结果-如何通过点击按钮和在电脑上下载文件的速度为客户提供照片。但是,是什么导致了手机照片质量的戏剧性提高呢?

2015年,谷歌意识到自己在摄影领域有多么落后,并决定以工程思维加大力度。著名计算机图形学研究员马克·莱沃伊(Marc Levoy)接管了谷歌研究公司(Google Research)的计算摄影团队,他打趣地说:

“软件定义相机或计算摄影相机的概念是一个非常有前途的方向,我认为我们才刚刚开始涉足皮毛。我认为这一领域的激动人心实际上才刚刚开始,因为我们正在从单一拍摄硬件主导的摄影转向软件定义的计算摄影这一新领域。“。

最近摄影领域最令人印象深刻的进步发生在软件和硅层面,而不是传感器或镜头-这在很大程度上要归功于人工智能让相机更好地了解他们正在看的是什么。

如今,手机在某些情况下比许多专用相机设备拍出更好的照片并不少见,至少在后期处理之前是这样。这是因为传统相机无法与另一类对摄影同样深远的硬件竞争:包含CPU、图像信号处理器以及越来越多的神经处理单元(NPU)的片上系统。

这就是后来被称为计算摄影的硬件,这个宽泛的术语涵盖了一切,从手机肖像模式中的假景深效果,到帮助驱动你从智能手机上要求的令人惊叹的AR效果和放大滤镜的算法。

计算摄影是利用相机中的计算机处理能力来产生超出镜头和传感器单次拍摄的增强图像。不管你怎么想象,摄影中的电脑都不是什么新鲜事。数字时代的每一台相机都需要处理能力来创建图像。甚至在数字时代到来之前,胶片相机就已经使用了处理器。他们控制自动曝光模式、自动对焦和闪光灯输出等功能。人们知道计算摄影的潜力已经有一段时间了。然而,近年来深度学习的进步解锁了一种全新的智能手机照片。

这是当今计算摄影的三大主流。最近,高调的黑白和夜间模式也加入了他们的行列。后者展示了处理器的能力如何在摄影中变得越来越重要。

摄影师历来习惯于一种方法。按快门,拍一张,然后再按一次快门。即使是最快的连续模式也是以类似的方式工作。他们只是简单地继续拍摄单张照片,直到摄影师松开快门按钮。

在计算摄影中,当你按下快门时,相机将几乎同时拍摄多张图像。然后,它会将这些图像实时处理成一张照片。HDR是这方面最简单的形式,已经存在一段时间了。相机采用5-6个镜头支架,并立即将它们合并。

然而,站到Bokeh上,我们可以看到现代智能手机的功能有多强大。在基于物理的摄影中,波克需要大传感器、大光圈、至少中等焦距的快速镜头。很明显,这在手机里是不可能的。

为了解决这一问题,智能手机拍摄了多张照片,每张照片都集中在一个特定的技术细节上。例如,它可能需要拍摄来控制曝光、焦点、色调、高光、阴影和人脸识别。然后,它会将它们合并,分析每个镜头中的所有数据,并尝试将被摄体从背景中屏蔽出来。然后,它将向背景添加模糊以模拟Bokeh。所有这些几乎都是实时完成的。

夜间模式和高调滤波器使用类似的处理器密集型技术。而这些真的只是个开始。这也适用于视频领域。只要回顾一下过去几年的视频功能就知道了。不久前,剧照相机的标准视频格式是1080p/24fps。现在大多数新相机的拍摄速度是4k/60fps,很快就会突破120和240fps大关。这是在短短几年内处理能力的巨大飞跃。

这一巨大的飞跃现在正准备在另一个行业盛行,这个行业可能会像肖像照相馆那样走向灭亡。

不同的照相馆差别很大。有些很小,由一个人或几个人操作。其他公司相当大,有数百名员工。一些制片厂将在内部处理所有的交付、运输和营销,而另一些制片厂将把这些要求外包出去。所有的制片厂都在某种程度上需要这些资源,但它们获得这些资源的方式往往各不相同。通常,照相馆应该有:

网上购物需要很棒的图片。为什么?图像有助于建立信心,帮助转化更多的客户,并且是与买家建立信心的主要来源。考虑到图片对在线销售的重要性,商家们千方百计地在产品摄影过程中投入巨资。但是,此过程可能会非常耗尽精力:

几十年来,产品摄影一直没有改变。这意味着存在相当大的瓶颈,成本高,规模有限,工作流脆弱。例如,如果您的企业或制造商决定更改产品的详细信息或更新新颜色,则必须重复整个过程。

使用3D软件,品牌现在可以通过渲染来生成引人注目的视觉效果,而不是物理拍摄。虽然这解决了产品拍摄的许多传统瓶颈,但3D渲染涉及到细致的建模、设置虚拟场景和生成图像,也就是众所周知的“生活方式拍摄”

由埃隆·马斯克(Elon Musk)、萨姆·奥特曼(Sam Altman)、格雷格·布罗克曼(Greg Brockman)和其他几位ML领导人创立的人工智能研究基金会OpenAI最近发布了一个API和网站,允许人们访问一种名为GPT-3的新语言模型。GPT-3在一些领域是真正具有开创性的技术。

GPT-3本质上是一种基于上下文的产生式人工智能。这意味着,当人工智能获得某种上下文时,它会尝试填充其余的上下文。例如,如果您给它脚本的前半部分,它将继续脚本。给它一篇文章的前半部分,它将产生文章的其余部分。--德利安·阿斯帕鲁霍夫

今天,GPT-3是一个生成文本的机器学习模型。您只需给它一些与您试图生成的内容相关的文本,它就会完成其余的工作。

机器学习模型允许您根据过去的数据进行预测,而生成(创建文本)是预测事物的一种特殊情况。GPT-3模型是通过少镜头学习来训练的,这是一种在语言模型中似乎显示出有希望的结果的实验方法。GPT-3因其有多好而备受关注-它可以生成完整的已发表文章、诗歌和创造性写作,甚至可以生成代码。

围绕GPT-3的兴奋主要是围绕文本或书面内容。在将少镜头学习系统用于图像方面,Open AI正在探索如果将相同的算法提供给图像的一部分会发生什么。

OpenAI的研究人员决定将单词换成像素,并在ImageNet(最受欢迎的深度学习图像库)中对图像训练相同的算法。因为该算法是为处理一维数据(即文本字符串)而设计的,所以他们将图像展开为单个像素序列。他们发现,名为iGPT的新模型仍然能够把握视觉世界的二维结构。给定图像前半部分的像素序列,它可以以人类认为合理的方式预测后半部分。

结果令人震惊地令人印象深刻,并展示了一条在计算机视觉系统开发中使用无监督学习的新途径,无监督学习以无标签数据为基础进行训练。

历史正在重演,问题是大多数人不想放手,直到为时已晚。这符合经典的颠覆理论,GPT-3有望颠覆许多领域,如网络开发、用户辅助设计,以及现在的产品摄影。

实现基于人工智能的产品摄影的很大一部分过程是生成所考虑对象的3D文件。这个问题可以通过制造商提供的更好的3D标准化来解决,更有趣的是,通过开始内置到你随身携带的设备中的激光雷达传感器,这个问题可以得到彻底解决。苹果最新的iPad Pro已经有了这些功能,你的下一部手机可能也会有。

虽然仅来自激光雷达传感器的数据不足以生成高保真的3D模型,但该领域正在迅速改进,深度学习模型也是如此。

最初,人工智能能够从照片中开发深度数据信息。从那时起,最先进的机器学习算法可以从照片中提取二维对象,并在三维空间中逼真地呈现它们。这是一项适用于增强现实应用程序、机器人技术以及导航的技术,这就是为什么它是Facebook的一个尖锐的研究领域。

“(我们的)研究建立在使用深度学习预测和定位图像中的对象方面的最新进展,以及体素、点云和网格等3D形状理解的新工具和架构的基础上。三维理解将在提升AI系统在现实世界中更紧密地理解、解释和操作的能力方面发挥核心作用。“。

这使得在不久的将来可以开始从智能手机或平板电脑生成高质量的3D对象。一旦生成,产品可视化的可能性就真正打开了,比如照片级真实感渲染。

数字设计正在成为该行业的重要杠杆。它允许品牌快速远程设计物品;一旦创建,3D资产-即产品的三维、照片逼真的数字模型-可以用于各种情况,从创建营销材料和虚拟展厅到面向客户的电子商务页面和增强现实体验。数字供应链也被视为在提高生产速度的同时减少浪费的一种方式,为努力在削减成本的同时变得更可持续的公司提供了双赢。

有了iGPT和3D模型等进步,人工智能可以接管,帮助生成令人惊叹的产品图像。这比实物摄影更快、更便宜、更灵活。

现在可以将3D模型放置在任意数量的虚拟背景中,以生成看起来引人入胜的渲染。有什么优势呢?

个性化:您看到的产品渲染可能与我看到的相同产品的渲染完全不同。

云状规模:您可以同时渲染数百(如果不是数千)个产品和图像,而无需等待每次清理物理拍摄空间

速度:从产品到3D模型的渲染近乎瞬间。

灵活性:在制造级别对您的产品所做的任何更改都可以反映在3D信息中,并且产品在几分钟内即可呈现出来。

创意控制:在没有创意中间人的情况下,精确调整你品牌的生活方式形象。

品牌可以根据网站访问者的不同,开始实时调整图片。图像可以针对目标细分进行性能测试,并且最好的视觉效果可以在不增加任何成本的情况下为品牌目录的其余部分加倍。

在SCapic,我们一直在进行实验,将所有这些元素结合在一起。通过捕获和建模3D资源,我们试图为产品的风格化生活方式图像构建一个人工智能辅助的工作流。

在使用ThreeJS和WebGL创建声明性3D场景时,生成性代码片段似乎已经很有用了。我们可以扩展这个想法,以帮助声明一组描述的元素及其参数,并立即为所提供的信息获取呈现:

目前,这一过程仍然是人力密集的,仅限于预设场景,而不是完全生成的场景。然而,经过几次尝试,我们看到的一些结果看起来很有希望:

没有真正的照片,但都是通过Scapic的AI渲染渲染的。它仍然需要手到甲板上,并有人来协助这一过程。然而,随着工作的增加,数字化到3D、生成照片逼真的生活方式照片和启用增强现实的整个过程都可以直接从智能手机实现的日子不远了。

现在还为时尚早,但计算产品摄影的空间正在快速发展,通过同样的方式可以实现整个类别的身临其境的体验。

它不仅止于产品,也止于人。如果AI也可以开始生成目录中的所有模型会怎么样?

该行业第三个即将产生巨大变化的巨大变化是人工智能生成的时尚摄影模特的崛起。

一个典型的摄影过程涉及模特、摄影师、造型师、发型和化妆师、交通、照相馆租赁和摄影设备、数字技术和后期制作的个人成本。重拍,大约5%的时间发生,意味着所有这些成本的重复。

另一个代价就是损失的时间--拍摄速度很慢。完成整个过程并将图像上传到网站可能需要几周,如果不是几个月的话。这意味着零售商正在失去销售时间。采购产品和实际将产品放在网站上之间的差距很大-这让零售商在这段时间内失去了潜在的销售成本。

降低摄影成本的需求是真实存在的。就像许多高成本活动和可持续性问题一样,产品形象的创建过程可以通过技术进行优化。

AI-Powered Smart Retail Automation拥有多种解决方案,可优化整个零售供应链的流程、工作流和体验。自动化的On-Model Fashion图像是提高产品图像创建过程的效率和降低拍摄成本的答案。

数字模特和有影响力的人正从各个角度成功打入时尚界。有些人甚至与传统的模特经纪公司签约。以利尔·米克拉(Lil Miquela)为例,她是一名19岁的巴西裔美国模特、影响力人物,现在是音乐家,在Instagram上积累了200多万人的忠实追随者。

今天,Lil Miquela是一个计算机生成的图像(CGI),而不是人工智能(AI)。这意味着米克拉或类似的字符实际上不能靠它们自己做任何事情。他们不能独立思考、学习或提供各种姿势。但这种情况不会持续很长时间。

IGPT方法为深度伪图像的生成提供了一种值得关注的新方法。生成性对抗性网络是过去用来制造深度假的最常见的算法类别,必须在高度精选的数据上进行训练。例如,如果要让GAN生成面,其训练数据应仅包括面。相比之下,iGPT只是从数百万和数十亿个例子中学习足够多的视觉世界的结构,从而吐出可能存在于其中的图像。

所有这一切对现有的产品照相馆和人体模型意味着什么?可以肯定地说,这个空间将不得不为不断变化的劳动力做好准备,就像其他一些行业一样。模特们将不得不锻炼适应能力和创造性智力等技能,以确保我们也能维持向数字的转变。

归根结底,GPT-3仍然是一个语言预测者。它没有“思考”,也没有自己的“头脑”。它只根据收到的输入生成内容。因此,虽然GPT-3不能回答非常棘手的问题序列,但它可以消除对平凡任务的需要,比如生成相同设计的变体或基于常见的3D渲染原则构建简单的产品图像。产品摄影行业建立在重复、耗时和技术复杂的步骤上,这些步骤可以大大加快速度,同时让艺术家或创作者在非常艺术上花费比实现这一目标所需的步骤更多的时间。

人类是我们的核心,由视觉驱动。人工智能正在帮助生成它们,比以往任何时候都更令人信服。GPT-3和IGPT可能没有自己编写这篇文章或呈现它的视觉效果,但他们完全有能力做到这一点的日子并不算太远。