深度梦想:亚历山大·莫德文采夫挖掘了计算机的隐藏层

2020-08-04 03:42:35

2015年5月18日凌晨,亚历山大·莫尔文采夫有了一项惊人的发现。他一直睡不着觉。午夜刚过,他惊醒了。他确信在他与妻子和孩子居住的苏黎世公寓里听到了噪音。他担心没有锁上露台的门,就跑出卧室查看是否有入侵者。一切都很好;露台的门是锁着的,没有入侵者。但当他站在客厅里时,他告诉我,突然他“被几十个非常美好的想法包围了”。“当一个想法具体化到可以开始编程的程度时,那个美好的时刻就出现了。”这一切都聚在一起了。刹那间,他看到了别人错过的东西。他立刻坐在他的电脑前,开始打几行代码。

在此之前,旨在模仿大脑并识别模式的人工神经网络一直是我们的仆人,尽职尽责地执行我们要求它们执行的任务,在为我们提供服务方面变得越来越好。莫尔德文采夫当晚的冒险之旅彻底改变了我们对计算机能力的看法。他伟大的想法是让他们松开绳索,看看当他们被给予一点自由,允许他们有一点梦想时会发生什么。他释放了计算机的内部工作原理,并挖掘了它们神秘的隐藏层。谁会想到,他们会在距离梵高的“星夜”不到一百万英里的地方抛出狂野的画面呢?

莫尔德文采夫给人的印象是专注、强烈。当他回忆起在圣彼得堡长大的童年时,他更放松了。Mordvintsev于2010年毕业于圣彼得堡国立信息技术、机械和光学大学,获得计算机科学硕士学位,然后前往一家专门从事海洋训练模拟器的公司工作,使用计算机为生物系统建模-在这种情况下,是珊瑚礁。他被分配到一个计算机视觉小组,很快就对这个领域着迷了。计算机视觉就是重新发明眼睛,教计算机看东西,开发能够理解数字和音频图像的计算机--也就是图像和声音。这对莫尔文采夫很有吸引力。

当莫尔德文采夫的第一个孩子出生时,他和他的妻子决定大城市不是孩子的地方。就在那时,他接到了来自苏黎世谷歌招聘人员的电话,向他提供了一份那里的工作。

到达时,他很担心。做计算机视觉的团队并不多,他是个“计算机视觉专家”。更糟糕的是,他被分配到一个专门从事安全搜索的团队,防止垃圾邮件和色情内容感染搜索结果。尽管如此,他还是有机会在谷歌周围闲逛和交往。在与他的同事聊天时,莫尔德文采夫被他所学到的关于深度神经网络的力量所震撼。虽然他曾经持怀疑态度,但现在他可以访问巨大的数据缓存和最新的机器。正如他所说,他很快意识到神经网络的深度可以“真正发光”。

我们的大脑由至少1000亿个相互连接的神经细胞(神经元)组成,由一个鲜为人知的100万亿个连接的灌木丛连接起来。为了让我们看到,我们大脑中的神经元收集我们在视网膜上接收到的图像,并赋予它们形状和意义。从混乱的视觉印象中创建图像的过程始于初级视觉皮质,它识别线条和边缘。这个基本的草图被传递到大脑的区域,就像工厂里的流水线一样,它填充了形状、斑点阴影,并建立了鼻子、眼睛和脸部。最终的图像是使用我们记忆和语言中的信息组合在一起的,这有助于我们对图像进行分类,例如,将图像归类为不同类型的狗和猫。

人工神经网络的设计目的是复制大脑的活动,并揭示大脑是如何工作的。卷积神经网络(ConvNets)在谷歌引起了莫德文采夫的注意,它是一种主要致力于视觉的专门形式,能够识别数据中的对象和斑点模式。神经元的排列方式与眼睛相似。ConvNet有多达30层,每层由数千个人工神经元组成,这就是为什么它们被称为深度神经网络。每一层中的神经元都能够检测到信号,但比大脑的神经细胞复杂得多。与人脑中的神经细胞和连接的数量相比,ConvNet中的神经元和连接的数量微乎其微。目前,人工神经网络更类似于老鼠的大脑。但是机器识别图像的装配线过程与我们看到图像的方式相似。

要训练ConvNet,您需要从一个数据库(如ImageNet)输入数百万张图像,该数据库由1400多万个图像URL组成,并通过手工注释来指定内容。网络的可调参数-连接b

然后,当你向它展示一张图像,并要求它识别它时,ConvNet的工作方式与人脑相似。首先,早期图层在组成图像的像素的地图中挑选线条。然后,每一层都连续挑选出越来越多的细节,建立起面孔、汽车、宝塔的部分,无论它的记忆中有什么图像。你越深入,信息就变得越抽象。最后,在最后一层,像素中特征分析的所有结果都被组装到最终图像中,无论是一张脸、一辆车、一只狗,还是神经网络训练过的数百万张图像中的任何一张。

关键的一点是,机器不会像我们一样看到猫或狗,而是一组数字。图像被分割成像素。每个像素都用数字表示,这些数字给出了它在红色、绿色和蓝色刻度上的颜色及其位置。换句话说,它是数字一直往下。在第一层中,过滤器一次照亮像素映射中的一个区域,寻找线条和边缘,进行卷积-因此才有了卷积神经网络这一术语。然后,它将该原始草图传输到下一层。滤光片在每一层中以相同的方式操作,以澄清和识别目标图像。

最后,最后一层得出图像实际是什么的概率。如果网络被要求识别一只狗,结论可能是99.99%的概率是狗,它是猫、狮子或汽车的可能性很低,就像它所训练的数据中的类别一样低。这就是谷歌反向图像搜索的可能:谷歌在你的图像上训练一个ConvNet,并返回它的最佳猜测。

在深度神经网络出现之前,每一层中的滤波器都必须手工设计,这是一项艰巨的任务。在ConvNets中,它们是训练的自然结果。

人工神经网络最早的成功之一是读取支票上的数字。现在他们可以识别人脸,在数据中找到模式,并为无人驾驶汽车提供动力。大多数科学家都满足于就此打住。未被问到的问题是,机器的推理是什么?在接收待识别图像的输入层和出现解决方案的输出层之间的神经元层中发生了什么?这些是隐藏层,之所以称为隐藏层,是因为它们既不是输入也不是输出;它们在机器内部。莫德文采夫不仅痴迷于找出为什么ConvNet工作得这么好,而且还痴迷于找出它们到底为什么工作,它们是如何推理的,以及隐藏的层里发生了什么。

他开始工作,尽管这个问题不是他官方职责的一部分,这与安全搜索有关。谷歌有一项政策,允许其工程师将最多20%的时间,即每周一天,花在其他与谷歌相关的项目上。当然,研究人员不能简单地打开和关闭他们的思想。你探究的激情一直伴随着你,要么在你的意识里,要么更有可能是在潜意识里。

牛津大学的一个研究小组发表了论文,为如何最好地继续进行提供了线索。他们解释说,当计算机被输入图像时,组成图像的像素被转换成数字。为了研究ConvNet是如何工作的,研究人员在隐藏层中途停止了这一过程,并调整了该层神经元之间的连接,以便机器看到目标图像的近似值。他们试图找出网络看到了什么,它的“大脑”里发生了什么。他们发现,不同图层中的图像虽然模糊,但仍与目标图像相似。

沿着同样的路线,莫德文采夫确信隐藏的图层不仅仅是黑匣子,他接收数据并产生结果。他认为它们是“透明的,但非常、非常隐晦”。就在那时,5月的那个清晨,午夜过后不久,一切突然就位。莫尔德文采夫坐下来,编写了封装他的突破的代码,使他能够一层一层地探索神经网络是如何工作的。

莫德文采夫没有像牛津团队那样,先看原始图像的哪些特征包含在特定的图层中,然后以像素的形式生成这些特征,以产生与原始图像大致相同的印象,而是做了相反的事情。他将一张图像输入到一个已经接受过ImageNet数据训练的ConvNet,但中途停止了前进的进程。换句话说,他踩了刹车。当网络还在试图验证某种特定模式可能是目标对象的初步感觉时,他告诉网络当场生成它。

网络中的中间层由数千个相互连接的神经元组成,这些神经元包含网络训练过的所有东西的一部分-在这种情况下,是有很多狗和猫的ImageNet数据集。例如,如果目标图像中甚至有一丝狗的暗示,那一层中相关的人工神经元就会受到刺激,以强调狗的存在。然后,你来回反复地反转这个过程,看看会出现什么。正如莫尔德文采夫所说,“无论你在那里看到什么,我都想要更多。”根据谷歌虚拟现实的主要制片人杰西卡·布里哈特(Jessica Brillhart)的说法,谷歌工程师将这称为“脑外科手术”。牛津大学的研究小组试图重建原始图像,而莫德文采夫的伟大想法是保持神经元之间连接的强度不变,让图像发生变化。正如他谦虚地说:“有很多关于理解神经网络的建议。我的是非常实用的。“。

通常情况下,如果你通过这台机器喂养它,它会同时识别猫和狗,因为它已经在ImageNet上接受过培训,上面有118个品种的狗和几只猫的图像。Mordvintsev只输入了图像中的猫部分,并在隐藏层中停了一半,神经元爆裂,包含狗和猫特征的混合,以及ImageNet中的任何其他特征。几次传递这张图片的结果就是这个恰如其分的名字“噩梦野兽”。从来没有见过这样的东西-一个头上有两双眼睛,腰上有另一双眼睛的东西,眼睛和犬类的属性遍布全身:这并不完全令人惊讶,因为这个网络更多的是针对狗而不是猫的训练。背景也变成了复杂的几何图案,几只蜘蛛冲了进来。似乎机器在那里看到了蜘蛛,尽管我们没有看到。这是机器眼中的世界景象。

莫尔德文采夫熬夜到凌晨2点。写一份满是猫的图片的报告。他在多个尺度上应用了他的算法,同时产生了大小类似猫的生物,产生了具有分形属性的图像和只能被称为迷幻的表情。关键的一点是,这台机器产生的图像并没有编程到里面。

我们的人类感知系统也有类似的行为方式,让我们“看到”并不真实存在的东西,比如月球上的面孔,云层中的图片,或者火星上加勒陨石坑里的笑脸,这是一种叫做空想的错觉。莫德文采夫的算法生成的梦幻图像几乎是迷幻的,与服用LSD的人体验的图像惊人地相似。这是否意味着人工神经网络不是那么人工的呢?我们可以说莫德文采夫已经找到了一种方法来观察机器的潜意识,它的内在生命,它的梦想吗?当然,他已经找到了一种方法来探测它的隐藏层。

最后,莫尔德文采夫将他的几张照片发布在谷歌内部网站上,假设一段时间内没有人会注意到它们。“我在想怎么才能睡着,”他回忆道。

但谷歌的太阳永远不会落山。当时是加利福尼亚州山景城的傍晚时分,谷歌总部正如火如荼地进行着。莫德文采夫的照片在网上疯传。这位来自苏黎世无伤大雅的SafeSearch团队的默默无闻的工程师获得了热烈的好评。

阿瑟·I·米勒是伦敦大学学院历史与科学哲学荣誉退休教授。他是“碰撞的世界:尖端科学如何重新定义当代艺术”(W.W.Norton)和“机器中的艺术家”等书籍的作者,本文就是根据这两本书改编的。