几年前,我的阅读清单上突然出现了一篇题为“改进质量、稳定和变化的渐进式增长的甘斯”(Progative Growth of Gans for ImprovedQuality,Stability,and Variation)的论文。它描述了逐渐发展的生成性对抗网络,从低分辨率图像开始,然后随着训练的进行建立更多的细节。它在当时得到了相当多的新闻报道,因为作者们用他们的想法产生了逼真的、独特的人脸图像。
看着这些图像,神经网络似乎必须学习大量的东西才能做到这些网络正在做的事情。其中一些似乎相对简单而又真实--比如,眼睛的颜色应该相配。但其他方面非常复杂,很难用语言表达。例如,需要哪些细微差别才能将眼睛、嘴巴和嘴巴的配置连接成连贯的面部表情?当然,我在这里将随机机器拟人化,我们可能会被我们的直觉愚弄--结果可能是,工作的变体相对较少,而解空间比我们想象的更有限。也许最有趣的不是图像本身,而是它们对我们产生的不可思议的影响。
一段时间后,一个最受欢迎的微型PhyloPic播客出现了,这是一个关于动物、植物和其他生命形式的剪影图像的数据库。沿着上面的思路沉思,我想知道如果你训练一个像ProgressiveGans的论文中那样的系统,在这样一个非常多样化的数据集上会产生什么结果。你会不会只产生一些已知动物类型的变体,或者是否会有足够的变体来进行神经网络驱动的推测动物学?不管结果如何,我确信我会从它的研究墙上得到几个很好的指纹,所以我开始以一种开放的实验态度来满足我的好奇心。
我改编了渐进式GANspaper中的代码,并使用具有8NVIDAK80GPU的Google Cloud实例在完整的PhyloPic数据集上训练了12000次迭代的模型。总训练时间为4天,包括部分假启动和实验。我用最终训练好的模型制作了50k张单独的图片,然后花了几个小时仔细研究结果,对图片进行分类、过滤和整理。我还做了一些光线编辑,通过翻转图像使生物朝向相同的方向,因为我发现这在视觉上更令人满意。这种亲身实践的方法意味着你下面看到的是我和神经网络之间的某种合作-它完成了创造性的工作,而我进行了编辑。
第一件让我惊讶的事情是,结果是多么的美观愉悦。这在很大程度上当然反映了制作原始数据的艺术家的良好品味。然而,也有一些令人高兴的意外。例如,似乎每当神经网络进入不确定的领域-无论是它还没有完全掌握的繁琐的比特,还是完成模糊的生物幻想的飞行-色差就开始进入画面。这很奇怪,因为输入集完全是黑白的,所以颜色不可能是某些生成性问题的习得解决方案。任何颜色都必须是机器头脑的纯人工制品。令人高兴的是,持续触发色差的东西之一是飞行昆虫的翅膀。这意味着它产生了成百上千种色彩斑斓的蝴蝶,就像上面提到的那样。我想知道这是否可能是一个有用的观察-如果你只使用黑白图像进行训练,但需要全彩色输出,那么彩色斑点可能是一种有用的方式来查看模型在哪里仍然无法准确地表示训练集。
作品的大部分是各种完全可辨认的剪影-鸟类、各种四足动物、大量优雅的小兽脚类恐龙、蜥脚类动物、鱼类、虫子、蜘蛛类和人形动物。
一旦已知的生物被淘汰,我们就能找到更陌生的东西。我对此提出的问题之一是,是否会出现自然界中不存在的看似合理的动物身体计划-也许是输入集合中的生物的杂交。嗯,通过仔细的搜索和一丝有用的空想,我发现了数百只四足鸟,蛇头鹿和其他奇妙的怪物。
在更深的未知中,这个模型产生了奇怪的抽象模式和无法辨认的实体,所有这些都给人一种模糊的生物般的、栩栩如生的感觉。
在上面的图像中没有体现出来的是结果中的绝对丰富的变化。我正在打印和装框一些这样的图像集,数以百计的小的、细节的图像在规模上并排的效果相当令人震惊。为了对整个数据集的范围有一些了解,我在下面包括了其中一张照片--这张照片是从未过滤的图像语料库中随机抽取的样本。