“AI Make Frank Sinatra Sing”,布兰妮·斯皮尔斯(Britney Spears)著

2020-05-21 08:24:55

4月底,人工智能开发公司OpenAI发布了一个新的神经网络Jukebox,它可以创建9000多个乐队和音乐家风格的混搭和原创音乐。

与此同时,OpenAI还发布了一系列由算法生成的样本曲目,这些曲目可以将音乐弯曲成新的流派,甚至可以用一位艺术家的歌曲以另一位艺术家的风格重新诠释-想想埃拉·菲茨杰拉德(Ella Fitzgerald)和塞琳·迪翁(Céline Dion)的爵士乐-流行音乐的混合体。

这是一项令人难以置信的技术壮举,但未来主义的编辑团队对OpenAI分享的曲目并不满意。为了真正振作起来,我们找到了CJ·卡尔和扎克·祖科夫斯基,他们是算法生成的音乐组合DADABOTS背后的音乐家和计算机科学专家,他们提出了一个请求:我们想听弗兰克·西纳特拉(Frank Sinatra)演唱布兰妮·斯皮尔斯(Britney Spears)的“有毒”(Toxic)。

一种能够以现有乐队和艺术家的风格创作原创音乐作品的算法引发了尚未探索的法律和创意问题。例如,接受Jukebox培训的艺人是否可以为生成的曲目申请学分?或者我们正在经历一个全新的音乐时代的开始?

下面是最终的歌曲,在它所有的人工智能产生的荣耀,紧随其后的未来主义的轻微编辑的对话与算法音乐家卡尔和祖科夫斯基。

未来主义:感谢您抽出时间和我们聊天,CJ和Zack。在我们开始之前,我想更多地了解一下你们两个,以及你们是如何学会如何做到这一切的。你有什么样的背景可以用来制作人工智能音乐?

扎克·祖科夫斯基:我想我们首先都差不多是音乐家,但我也涉足科技领域很长一段时间了。我从音频的角度来研究我的机器学习:我想用合成和音乐技术来扩展已经在做的事情。似乎机器学习显然是获得最大收益的途径,所以我开始学习这些类型的算法。SampleRNN是我们最喜欢使用的工具--这是我们在过去几年中一直用于直播和BandCamp专辑的主要工具之一。

CJ Carr:首先是音乐家,在计算机科学方面有动力用音乐做新的事情。DADABOTS本身就是从黑客松文化中脱颖而出的。我参加了65场黑客马拉松,扎克和我一共赢了15场左右。这种环境激励人们以某种新的方式推动他们正在做的事情,做一些具有挑衅性的事情。这就是DADABOTS在2012年产生的精神,随着技术的进步,我们一直在推动它走得越来越远。

你为什么决定退出个人黑客松,坚持使用DADABOTS?你的各种项目的想法是从哪里来的?

CJ:当我们开始的时候,我们都是伯克利音乐学院的实习生,从事音乐技术方面的工作。当我遇到扎克的时候--出于某种原因,我觉得我认识扎克一辈子了。这是一次自然的合作。扎克比我更懂信号处理,我更懂编程,现在我们都有大脑了。

CJ:SampleRNN一直是我们的主要工具。训练真的很快--我们可以在一两天内训练一位新艺术家。我们最喜欢做的一件事就是与艺术家合作,当艺术家说“嘿,我想做一张机器人专辑。”但最近,Jukebox在音乐世代中胜过了最先进的水平。他们真的做得很好。

SampleRNN和Jukebox的相似之处在于它们都是序列生成器。它正在以44.1k或16k采样率读取音频序列,然后尝试预测下一个样本将是什么。这张网在不到一毫秒的时间里就做出了决定,拿出下一个样本。这就是为什么它被称为神经合成。它不是从训练数据中复制和粘贴音频,而是学习合成。

它们的不同之处在于,SampleRNN使用“长短期内存”(LSTM)架构,而自动存储塔使用转换器架构。变压器注意了。这是一个相对较新的事物,在深度学习中变得流行起来,仅次于RNN,继LSTM之后。它特别取代了语言模型。我不知道你是否还记得像GPT-2和Grover这样的假新闻发生器。他们使用变压器架构。许多语言研究人员将LSTM抛在脑后。目前还没有人真正将其应用于音频音乐--这是Jukebox的一大增强。他们正在将一种语言架构应用到音乐中。

他们还在做这个额外的事情,叫做“矢量量化变分自动编码器”(VQ-VAE)。他们试图将音频转换成语言。他们训练一个模型来创建一个密码本,就像字母表一样。他们取下这个字母表,这是一个由2048个符号组成的离散集合--每个符号都与音乐有关--然后他们在上面训练他们的变压器模型。“。

CJ:他们根本没有做那个分析。我们真的很好奇。例如,我们可以用它作曲吗?

扎克:我们有这2048个字符,所以我们想知道哪些是常用的。就像在字母表中一样,我们不太使用Z。但是什么是“元音”呢?哪些符号使用频率最高?看看当你开始去除这些符号时会发生什么,看看网络能用剩下的做什么,这将是非常有趣的。我们有和弦和音阶的音乐理论语言,也许这是我们可以用来谱写的东西,而不是制作艺术家的深度赝品。

关于音乐的基本规则和组成部分,这种语言能告诉我们什么?我们如何才能将这些作为自己的基石?它们比和弦的层次要高得多--也许它们是与流派相关的。我们真的不知道。如果只使用语言的一个子集进行分析,看看会发生什么,那将是非常酷的。

嗯,听起来我们三个对这一切有很多相同的问题。你有没有开始摆弄它以了解发生了什么事?

CJ:我们刚刚开始运行代码。第一个例子是辛纳特拉事件。但随着我们更多地使用这个,这里的哲学含义是,作为音乐家,我们直觉地知道,音乐非常像语言。这不仅仅是波浪和噪音,这是在小范围内看起来的样子,但当我们玩的时候,我们是在相互交流。贝斯和鼓手步调一致,弦乐和人声可以互相呼应。而OpenAI就像是“嘿,如果我们把音乐当成语言呢?”

如果这个算法使用的字母表可以被视为一种新的音乐理论,你认为这会成为你们两个前进的工具吗?或者它更像是一种可以玩耍的怪异玩意儿?

CJ:也许我应该改正自己。这些模式不是一种音乐理论,而是一种音乐理论的训练。

扎克:这个理论我们现在还不能解释。我们不能说“这个值意味着这个”。我想,这并不完全是人类可以理解的。

CJ:这个模型只学习概率模式,这就是音乐理论。正是这些音符往往有这些模式,并产生这些感觉。这些都是人类发明的。如果我们让一台机器自己去发现这一点,然后我们让它来制作音乐,会怎么样?如果它擅长这一点,很可能它已经学到了一个很好的引语--“音乐理论”。

扎克:我们想了一个比喻:在巴赫的日子里,这些作曲家真的对对位感兴趣-许多声音朝着自己的方向移动-他们对此有一套规则。作曲家创作的第一条旋律线被称为Cantus Firus。有一个新作曲家会玩的教育游戏-如果你能按照画布上呈现的音符,猜猜下一个和声的音符是什么,根据当时的音乐,你会是正确的。

我们认为,在某种程度上,这是一种机器版本。可以用来用以前听过的音乐风格创作新音乐的东西。

我知道现在还为时尚早,这是一种猜测,但你对人们会如何使用Jukebox有什么预测吗?会有更多这样的混搭吗,或者你认为人们会开发出原创的作品吗?

CJ:一方面,你害怕按钮艺术。很多人认为按钮艺术非常怪诞。但我认为,当一种文化能够做到这一点时,按钮艺术-对那种文化来说是一个超越的时刻。这意味着这种文化的传播已经达到了它的能力。想想模因生成器--我可以给基努·里夫斯拍张照片,加入一些内部笑话,然后把它发给我的朋友们,然后他们就可以理解和欣赏我所传达的东西。那是很有力的。所以这是怪异的,但却是有效的。

另一方面,你会看到这些艺术家--这些创作者--他们会做得过火,并试图创造一种前所未有的艺术媒介。我们感兴趣的是这些全天候的发电机,在那里它可以永远不停地发电。

扎克:我认为对于那些制作过大量专辑的艺术家来说,这是一个有趣的工具。有些艺术家甚至不知道他们可以在Jukebox上生成。所以,我想他们中的很多人都想知道,在他们的肖像中可以产生什么。它可以是一种不同的工具,它可以通过一种他们甚至没有听说过的视角为艺术家重新创作作品。它可以通过相似的艺术家,甚至非常遥远的风格的艺术家来弯曲他们的作品。它可以成为艺术家的一个很好的培训工具。

你说你已经听到一些艺术家来找你创作音乐了--你能谈谈这件事吗?

CJ:当乐队接近我们时,他们大多停留在“嘿,就用我的训练数据,让我们看看会有什么结果--我真的很感兴趣。”

然而,在YouTube上,粉丝们像是“这是我最喜欢的四个乐队的名单,请让我从中学到一些东西。”

那么,让我们来谈谈你为我们制作的实际曲目。对于这首新歌,未来主义建议布兰妮·斯皮尔斯(Britney Spears)的“有毒”,由弗兰克·西纳特拉(Frank Sinatra)演唱。将它们组合在一起的技术方面与您平时的工作有什么不同吗?

CJ:这是不同的。有了SampleRNN,我们通常在一位艺术家或一张专辑上从头开始重新培训它。这就是它真正闪耀的地方-它不能很好地进行这些融合。OpenAI能够做什么-用数百万美元的巨大计算预算-他们能够训练这些巨大的神经网络。他们对他们进行了300多个流派的9000多名艺术家的培训。你需要一个拥有巨额预算的超级团队,才能做出这个可推广的网。

扎克:有两个选择。有歌词,没有歌词。没有一句歌词有点像SampleRNN的工作方式。对于歌词,它试图让它们都井然有序,但有时它会循环或重复。但它试图从头到尾保持流动。如果你的歌词太多,它就听不懂。它不明白,如果你有一个合唱团在重复,音乐也应该重复。所以我们发现这些较短的作文对我们更有效。

但你在过去的项目中有使用SampleRNN的歌词,比如“人类灭绝派对”(Human Extinction Party)。这有什么不同呢?

扎克:那是一种错觉。我们训练它的那张专辑有人声,所以有些人通过了。我们有一个文本生成器,每当它听到声音就会编歌词。

在许多这样的Jukebox混搭中,我注意到声音听起来有点紧张。这仅仅是人工智能生成的声音被迫命中某个音符的问题,还是与算法本身的限制有更多的关系?

扎克:你的猜测听起来和我要说的差不多。这些歌词或音素,单词本身的声音,可能真的不太可能以类似的方式出现,就像我们强迫它生成这些音节一样。它可能听到了更多不是弗兰克·辛纳特拉的音乐,所以它可以想象弗兰克·辛纳特拉没有做的一些事情。但归根结底,它与弗兰克·西纳特拉(Frank Sinatra)的任何原始文本都有一些不同。

当你创作这幅有毒的作品时,你有没有遇到什么障碍?或者这仅仅是给予算法足够的时间来完成其工作的问题?

CJ:部分原因是我们需要一个非常昂贵的硬件,我们需要在Amazon Cloud上以每小时3美元的价格租用。它花了多长时间才产生,扎克?

扎克:我生成的最后一个版本花了大约一天的时间,但我已经一周一遍地做了一遍又一遍。你的控制力太小了,有时你只能再试一次。它会得到几个短语,然后就会忘记歌词。有时你会有两行歌词,但不是整个合唱团都排成一排。归根结底是运气--等待合适的人出现。

它可以循环成一行,或者有时它可以放入看似不同的歌曲中。它会完全失去它在哪里的踪迹。可能会发生一些相当疯狂的事情。有一次,我在创作弗兰克·西纳特拉(Frank Sinatra),显然是一群男人和女人一起合唱。它甚至不是正确的声音。它可能会变得相当幽灵。

你知道这类音乐是否涉及任何法律问题吗?以艺术家的风格或声音生成新音乐的能力似乎是未知的领域,但是使用现有歌词的mashup是否存在问题?或者那些在合理使用的幌子下更容易被接受,有点像恶搞歌曲?

CJ:我们不是法人,我们没有研究过版权问题。人们的感觉是,合理使用的理由很充分,但艺术家们可能不喜欢人们创作这些深伪作品。

扎克:我认为归根结底是意图问题,无论法律做出什么决定,他们都会做出决定。但是作为使用这个工具的人,艺术家,肯定有一个道德准则,人们可能应该尊重。别惹人生气。我们尽最大努力引用那些从事这项技术的人,那些接受过培训的人。这完全取决于你是如何发泄出来的,以及你对别人的工作有多尊重。

CJ:我们的长期研究是试图让这些模型更快、更便宜,这样卧室制作人和12岁的孩子就可以制作出没人想到过的音乐。当然,现在很贵,而且需要几天的时间。我们处于一个特殊的位置,可以用租来的硬件来做这件事。

具体地说,我们现在正在做的是,这是该型号目前支持的9000多个乐队的列表。但有趣的是,这些波段并没有被要求成为这个数据集的一部分。推特上的一些机器学习研究人员正在讨论这样做的伦理问题。当然,这有两个方面,但我们真的想接触到这些乐队。如果有人知道这些乐队,如果你们是这些乐队,我们会为你们创作音乐。我们想把这项我们认为能够创造出全新形式的技术,回馈给艺术家。

我理解并同意,注册或使用本网站构成对其用户协议和隐私政策的协议