数据科学家尝试将人工智能/人类协作用于视听艺术

2020-07-13 09:41:36

神经联觉是一个人工智能艺术项目,旨在用人工智能创造新的和独特的视听体验。它通过人类和生殖网络之间的合作来做到这一点。结果给人的感觉几乎像是有机艺术。当面孔、风景、物体和建筑转变成音乐时,色彩和图像的漩涡融合在一起。有一种感觉是,事情在感觉独特和同时又奇怪地熟悉之间摇摆。

神经联觉是由Xander Steenbrugge创建的,他是一位在线内容创建者,他在从事脑机接口工作时开始了他的数据科学。在他的硕士论文期间,他帮助建立了一个通过大脑信号对想象的运动进行分类的系统。这个系统允许患有闭锁综合症的患者用他们的头脑操纵物理物体。这一经历给Steenbrugge留下了深刻的印象,即机器学习的重要性,以及人工智能技术建造令人惊叹的东西的潜力。

除了神经联觉,Steenbrugge还与一家使用机器学习进行药物发现的初创公司合作,并运营着一个广受欢迎的YouTube频道。他还在开发wzrd.ai,这是一个通过人工智能的工作用身临其境的视频来增强音频的平台。在这次采访中,我们谈到了神经联觉的灵感,它是如何工作的,并讨论了人工智能和创造力。

我一直对美学着迷。例如山地全景,独立游戏设计,在珊瑚礁潜水,迷幻体验,以及塔尔科夫斯基的电影。美丽的视觉场景有一种无需言语就能传达意义的力量。它几乎就像是一种我们都凭直觉说的原始的视觉语言。

当我看到生成性模型(特别是Gans)令人印象深刻的进步时,我开始想象这会导致什么结果。就像相机和放映机带来了电影业一样,我想知道在深度学习革命的基础上可以建立什么样的叙事。要做到这一点,我的第一个想法是简单地调整Gans现有的代码库,以允许直接可视化音频。神经联觉就是这样诞生的。

你为第一部神经联觉作品做了多少工作?你有没有遇到过任何独特的挑战?

我想为第一个渲染的视频编码花了六个多月的时间,因为我是在业余时间做的。最大的挑战是如何使用从音轨中提取的特征来操纵Gans潜在输入空间。我想为观众在视觉和听觉之间创造一个令人满意的匹配。

下面是对我所做工作的一点了解:我应用傅立叶变换从音频中提取时变频率分量。我还执行和声/打击乐分解,基本上将旋律与轨道的节奏成分分开。然后将这三个信号(瞬时频率内容、旋律能量和节拍)组合以操纵甘斯潜在空间,从而产生由音频直接控制的视觉效果。

是否每个图像数据集都是唯一的?您如何收集这些数据集的图像,需要多少图像?

我花了很多时间收集大量不同的图像数据集,以创建有趣的生成性模型。这些数据集的首要目标是美学,而不是像大多数Gans那样的现实主义。实验各种图像集合的混合是很耗时的,因为GAN培训需要大量的计算,而且我并没有完全可用的数据中心。

我使用的大多数数据集都是我多年来遇到的图像集。我救他们是因为我知道总有一天我会用上他们。我一直对美学感兴趣,所以当我发现能激发第六感的东西时,我会把它保存起来。

大多数GAN论文使用超过50,000张图像的数据集,但在实践中,您可以使用较少的示例。第一步是从已经在大数据集上训练过的预先训练的GaN模型开始。这意味着模型中的卷积滤光片已经具有良好的形状,并且包含有关视觉世界的有用信息。其次是数据增强,它基本上是翻转或旋转图像,以有效地增加训练数据量。因为我并不真正关心样本真实感,所以我实际上可以负担得起非常积极的图像增强。这导致比实际源图像多得多的训练图像。例如,我最近在泰特现代美术馆的一次表演中使用的模型只有3000张真实图像,大大增加到了大约7万张的训练集。

最近,许多新的研究明确解决了GAN的低数据机制(例如,您可以在此处、此处和此处找到)。我目前的代码库利用这些技术来训练只有几百个图像的GAN。

你把神经联觉说成是你自己和人工智能之间的合作。你认为利用人工智能技术的创意项目的未来有什么潜力?

这实际上是整个项目中最有趣的部分。我通常会带着具体的意图出发,即我想要创造什么样的视觉效果。然后,我整理我的数据集,调优训练脚本的参数,并开始训练模型。一次完整的训练通常需要几天时间才能汇合。不过,模型很快就开始返回经常出乎意料和令人惊讶的样本。这就启动了一个有趣的反馈循环,我更改了模型的代码,模型用不同的样本进行响应,我做出反应,然后继续进行。创作过程不再完全在我的控制之下;我正在有效地与人工智能系统合作创作这些作品。

我真的相信这是这种方法最大的优势:你不受自己想象力的限制。有一个完全不同的系统也在以意想不到和有趣的方式影响着相同的思想空间。这会把你作为一个创造者引导到你从未涉足过的领域。

看着人工智能领域的巨大进步速度,强烈地激励我想象10年后可能会发生什么。毕竟,现代深度学习才8岁!我预计摩尔定律将继续带来更强大的计算能力,AI模型将继续随着更多的计算而扩展,这种媒介的可能性将遵循这一指数趋势。

目前形式的神经联觉是一个原型。它是一个更宏伟的想法的0.1版,利用深度学习作为未来先进互动媒体体验的核心组件。

您对神经联觉的未来有何创造性的规划?你有什么目标或未来的计划吗?

我一直对这种概观效果着迷,宇航员们描述了从太空看到整个地球是如何深刻地改变了他们的世界观,点燃了人们的意识,即我们都是同一个脆弱的生态系统的一部分,悬浮在黑暗的太空中。

对我来说,这是深刻的、疏远的经历可以对人们的选择和行为产生壮观影响的很好的证据。我们需要的是观念上的转变,不再是部落对我们和他们的感觉。我们要朝着目标共同、挑战共同的全球化社会迈进。

我们的世界面临着越来越多的全球性问题,这些问题深深植根于我们以当地为中心的世界观。这些观点根深蒂固地植根于我们的基因;我们在小部落中进化,只需要关注他们当地的环境。然而,世界正在朝着一个全球互联的事件网络发展,在这个网络中,现在不能再与整个系统断开联系。例如,看看气候变化,人们为人为划定的国籍、种族甚至性别的边界而斗争。

因此,我的长期愿景是创造丰富的、身临其境的体验,并具有改变视角的能力。如果你愿意的话,可以说是电影院2.0。我想象一种互动体验,在那里,一群人可以进入一个人工智能生成的世界(例如使用虚拟现实耳机),在那里,视觉场景是如此完全陌生和令人惊叹,以至于迫使大脑暂时停止通常描述正在发生的事情的叙述。这就是冥想的本质目标:体验世界的本来面目,强调当下的体验,而不是我们围绕它构建的叙事。

因此,我们的目标是模仿一个人可以从积极的迷幻体验、冥想洞察力或太空之旅中体验到的知觉转变。认识到我们的“正常”世界观只是我们可能体验到的一小部分。我相信这种感性的转变可能是人类最独特的特征。它让想象力的巨大奇迹为我们的世界提供动力,是我们应对世界上最大挑战的最强大的工具。

从技术的角度来看,我们离创造这些基本的“影院2.0”体验还有多远?

我想说,从技术角度看,我们已经非常接近了。最新的生成模型(例如StyleGANv2或BigGanDeep)能够创建非常逼真的样本,并允许非常高的多样性。目前所缺乏的是让非编码者使用这项技术来获得创造性的创造性工具。主要的挑战,至少对我来说,是创造一个令人信服的故事。

你可以在Steenbrugge的专门主页上看到更多Steenbrugge的神经联觉工作,并在这里尝试wzrd.ai。他在YouTube和Twitter上也很活跃,并愿意与其他有类似想法和抱负的创意人员合作。你可以通过[email protected]联系他。

Lionbridge AI作为可信的培训数据源拥有20多年的经验,可帮助大大小小的企业构建、测试和改进机器学习模型。我们拥有超过1,000,000名合格贡献者的社区位于全球各地,全天候可用,提供对各种语言和文件类型的海量数据的访问。今天就联系吧。