DeepMind推出“Eats”--一种对抗性的、端到端的TTS方法

2020-06-10 07:07:00

几年前,DeepMind在古老的围棋游戏中击败了特级围棋大师,令研究界惊叹不已。最近,DeepMind看到其自学成才的代理人在视频游戏“星际争霸II”(StarCraft II)中击败了专业人士。现在,这家总部位于英国的人工智能公司又推出了另一项令人印象深刻的创新,这一次是在文本到语音(TTS)领域。文语转换(TTS)系统以自然语言文本为输入,以合成的类人语音为输出。文本到语音合成流水线是复杂的,包括文本归一化、对齐语言特征、MEL谱图合成、原始音频波形合成等多个处理阶段。尽管像Siri这样的数字助理中使用的现代TTS系统拥有高保真的语音合成和广泛的现实部署,但即使是最好的TTS系统也有缺点。每一阶段都需要昂贵的“地面真实”注释来监督输出,而且系统不能直接从字符或音素作为输入进行训练,以端到端的方式合成语音,这种方式在其他机器学习领域越来越受欢迎。为了解决这些问题,DeepMind研究人员开发了EATS,这是一种以端到端方式进行对抗性训练的生成性模型,其性能可与依赖多阶段培训和额外监督的SOTA模型相媲美。

EATS(端到端对抗性TTS)的任务是将输入的字符或音素序列映射到24 kHz的原始音频。现实世界中的一个关键挑战是,输入文本和输出语音信号通常具有非常不同的长度,并且不对齐。EATS通过两个高级子模块来处理这一问题:校准器预测每个输入令牌的持续时间并产生音频对准表示,以及解码器将校准器的输出上采样到全音频。

它是一种前馈卷积神经网络,适合于要求快速批处理推理的应用。

对抗性方法使生成器能够从相对较弱的监督信号中学习,从而显著降低了注释的成本。

它不依赖于自回归抽样或教师强迫,避免了诸如暴露偏差和减少推理时的并行性等问题,这使得它在训练和推理方面都很有效。

研究人员使用平均意见得分(MOS)来衡量语音质量来评估EATS。在测试中,所有模型都在由专业配音人员表演的人类语音数据集及其对应的文本上进行了训练。语音池由69名说北美英语的人组成。

与以前的模型相比,EATS需要的监督要少得多,但仍能达到4.083的MOS,接近GaN-TTS和WaveNet等SOTA方法的水平,而且比No RWDS、No MelD和No Differdicator等模型要好得多。这篇论文端到端的对抗性文本到语音是在arxiv上的。