微软的人工智能产生中英两种语言唱歌的声音

2020-07-14 04:56:17

浙江大学和微软的研究人员声称,他们已经开发出一种人工智能系统-DeepSinger-通过对音乐网站的数据进行训练,可以生成多语言的歌声。在发表在预印本Arxiv.org上的一篇论文中,他们描述了这种新颖的方法,这种方法利用一个特殊设计的组件来从嘈杂的歌唱数据中捕捉歌手的音色。

这项工作-就像OpenAI的音乐生成Jukebox AI一样-具有明显的商业意义。在录音结束后,音乐艺术家经常被拉来参加接听会议,以解决错误、更改或添加的问题。人工智能辅助的声音合成可以消除对这些的需求,为歌手的雇主节省时间和金钱。但也有更阴暗的一面:它也可以用来制作代表音乐家的深伪,让人觉得他们唱的歌词从来没有唱过(或者让他们失业)。Jay-Z的Roc Nation唱片公司最近提交了版权声明,反对那些使用人工智能让他说唱比利·乔尔(Billy Joel)的“我们没有引发火灾”的视频,这可能是即将到来的法律战的迹象。

正如研究人员解释的那样,歌唱的声音比正常说话的声音有更复杂的模式和节奏。合成它们需要信息来控制持续时间和音调,这使得这项任务具有挑战性。此外,公开提供的歌唱训练数据集并不多,训练中使用的歌曲必须在歌词和音频级别进行手动分析。

DeepSinger表面上通过一条由几个数据挖掘和数据建模步骤组成的管道来跨越这些挑战。首先,该系统从音乐网站上抓取顶级歌手用多种语言演唱的流行歌曲。然后,它使用一个名为Spleeter的开源音乐分离工具从伴奏中提取歌声,然后将音频分割成句子。接下来,DeepSinger提取歌词中每个音素(区分单词的声音单位)的歌唱持续时间。在根据模型生成的置信度分数过滤歌词和歌声之后,系统轻敲上述组件以处理不完美或失真的训练数据。

这是它制作的几个样品。第二个是Groove Coverage的梅勒妮·蒙克(Melanie Munch)的风格,演唱了一首《远离家乡》(Far Away Are Home)的歌词。

https://venturebeat.com/wp-content/uploads/2020/07/0K2P2e1dc_5.wav https://venturebeat.com/wp-content/uploads/2020/07/8GfscTff70f_39.wav https://venturebeat.com/wp-content/uploads/2020/07/bClau824b25f_9.wav在实验中,DeepSinger从互联网上抓取了数以万计的中文、广东话和英语三种语言的歌曲,这些歌曲经过了长度过滤和音量范围的归一化处理。那些声音质量不佳或歌词不属于歌曲的人被丢弃,获得了一个训练数据集-SING-WARD数据集-包含89名歌手演唱的92个小时的歌曲。

研究人员报告说,DeepSinger可以从歌词、持续时间、音调信息和参考音频中合成高质量的歌声,既有音高准确性,又有“声音自然度”。他们计算出,它的歌曲在所有三种语言中的定量音调准确率都高于85%。在一项涉及20人的用户研究中,DeepSinger生成的歌曲与原始培训音频之间的平均评分差距仅为0.34至0.76。

未来,研究人员计划利用更复杂的基于人工智能的技术,如WaveNet,并联合训练DeepSinger中的各种子模型,以提高语音质量。