谷歌的SoundFilter AI可以将任何声音或语音从混合音频录音中分离出来

2020-11-14 08:29:42

谷歌的研究人员声称,他们已经开发出一种机器学习模型,只需对目标声源进行一小段采样,就可以将声源从嘈杂的单声道音频中分离出来。他们在一篇论文中说,他们的SoundFilter系统可以进行调整,以过滤任意的声源,即使是那些在培训期间没有见过的声源。

研究人员相信,像SoundFilter这样的噪音消除系统可以用来创造一系列有用的技术。例如,谷歌利用自己数千次会议和YouTube视频中的音频来训练Google Meet中的噪音消除算法。与此同时,卡内基梅隆大学的一组研究人员创建了一个“声音-动作-视觉”语料库,以预测物体在受到物理力量时会移动到哪里。

SoundFilter将声音分离任务视为一次性学习问题。该模型接收要过滤的音频混合物和要过滤出的声音类型的单个简短示例作为输入。一旦经过训练,SoundFilter有望从混合物中提取这种声音(如果存在)。

SoundFilter采用了所谓的波到波神经网络结构,可以使用音频样本进行训练,而不需要标明信号源的类型。条件编码器获取条件音频并计算相应的嵌入(即,数值表示),而条件生成器将混合音频和条件嵌入作为输入并产生经滤波的输出。系统假设原始音频集合由许多几秒长的剪辑组成,这些剪辑在整个持续时间内包含相同类型的声音。除此之外,SoundFilter假定每个这样的剪辑都包含一个音频源,例如一个扬声器、一个乐器或一只鸟在唱歌。

在给定混合音频和调节音频作为输入的情况下,对模型进行训练以产生目标音频。SoundFilter培训示例由三部分组成:

条件音频信号,这是包含与目标音频相同类型的声音的另一个示例。

在实验中,研究人员在两个开源数据集上对SoundFilter进行了训练:FSD50L(超过5万个声音的集合)和LibriSpeech(大约1000小时的英语语音)。他们报告说,条件化编码器学会了产生代表条件化音频的声学特征的嵌入,使SoundFilter能够成功地将语音从扬声器的混合中分离出来,将声音从声音的混合中分离出来,并将单独的扬声器/声音从扬声器和声音的混合中分离出来。

Https://venturebeat.com/wp-content/uploads/2020/11/download-1.wav https://venturebeat.com/wp-content/uploads/2020/11/download.wav https://venturebeat.com/wp-content/uploads/2020/11/download-6.wav https://venturebeat.com/wp-content/uploads/2020/11/download-7.wav写道:“我们的工作可以通过探索如何使用作为声音过滤器一部分的嵌入来作为音频事件分类器的表示来扩展。”研究人员写道:“我们的工作可以通过探索如何使用作为声音过滤器一部分的嵌入来作为音频事件分类器的表示来扩展。”“此外,将我们的方法从”一次击发“扩展到”多次击打“也是有意义的。”

成功打造AI卓越中心的最佳实践: 有关COE和业务部门访问的指南,请访问此处