如何在5分钟内根据您的文本生成Yoda-Voice

2020-05-02 17:51:34

如果神经网络的进步如此之大,以至于现在我们可以建立不仅在分类或检测方面出类拔萃的系统,而且能够生成具有特定对象风格的独特东西,比如你的文本到尤达演讲,那会怎么样?

2014年,随着生成性对抗网络(简称GANS)的首批著作问世,该领域取得了巨大的进步和一些惊人的突破。我们都听说过图像样式转换:从一幅名画中提取样式并将其应用于另一幅图像。

使用图像样式转换算法生成的图稿示例,但今天我们将更深入地研究语音生成教程,展示如何训练Yoda文本到语音模型,最后我们将根据给定的文本获得完整的Yoda语音:

此外,我们还将向您展示通过几个样本生成任何人物的声音的流水线,其中包括他的声音,甚至您自己的声音。

我们将使用实时语音克隆,这是通过实时工作的声码器实现从说话人验证到多说话人文本到语音合成(SV2TTS)的转移学习。

带下划线的论文的目标是建立一种TTS系统,该系统可以通过处理零镜头学习设置,以数据高效的方式为各种说话人生成自然语音,其中来自目标说话人的几秒钟未转录的参考音频被用于合成该说话人的语音中的新语音,而不需要更新任何模型参数。

但是,如何将图像风格转换的基本理念应用于声音呢?有一种将音频信号转换成类似图像的二维表示的方法,称为语谱图,它是使用专门设计的计算机视觉算法来执行与音频相关的任务的关键。

让我们仔细看看什么是语谱图。在给定一维时域信号的情况下,我们希望得到一个时频二维表示。为了实现这一点,只考虑了结果的平方幅度,对音频信号应用了具有一定长度窗口的短时傅立叶变换。

为了使光谱图对我们的任务更有用,每个像素(或量值)都要转换为分贝刻度,以获得每个值的对数。

最后,通过转换光谱图到梅尔尺度,并应用梅尔滤波器组,我们将得到";梅尔光谱图";

这使得每个部分都可以根据独立的数据进行训练,从而减少了获得高质量的多说话人数据的需要。

扬声器编码器接收编码为给定扬声器的MEL语谱图帧的输入音频,并处理捕获扬声器的声音的嵌入。它不关心单词或背景噪声,而是扬声器的语音特征,例如高/低音调的语音、口音、语调等。

所有这些特征被组合成一个低维向量,正式地称为d向量,或者非正式地称为说话人嵌入。

合成器采用映射到音素(人类声音的最小单位,例如,您说出声音时发出的声音)的文本 - 序列,以及由扬声器编码器产生的嵌入,并使用Taco tron2架构来重复生成MEL谱图的帧。

为了将合成器生成的MEL谱图转换成原始音频波形,作者使用了声码器。

它基于DeepMind的WaveNet模型,从文本生成原始音频波形,一度是TTS系统的最先进技术。

现在,当您熟悉了理论以及它是如何在实际生活中实现的时候,我们将使用Google CoLab笔记本电脑运行该解决方案,以便无论您使用什么设备或硬件,都可以在配备GPU的情况下立即收到结果。

按照笔记本BELLOW中的说明来合成尤达的声音。此外,在它的最后,你将有机会合成你自己的声音,所以享受它吧!

如果神经网络的进步如此之大,以至于现在我们可以建立不仅在分类或检测方面出类拔萃的系统,而且能够生成具有特定对象风格的独特东西,比如你的文本到尤达演讲,那会怎么样?2014年,随着生成性对抗网络(简称GANS)的首批著作问世,该领域取得了巨大的进步和一些惊人的突破。我们都听说过形象风格.。了解更多。

作者提出了一种有趣的方法来解决从照片问题生成漫画脸的问题。本文提出的主要成果:作者收集了MangaGan-BL数据集,包含109个鼻子、179个嘴和106个具有地标的漫画脸。他们使用基于GaN的漂白漫画框架中的框架进行不成对的照片到漫画的翻译。作者们声称,由于不同的原因,目前最先进的方法不能制作出好的漫画脸。其中一个原因是..。

你好,我是米哈伊尔·尤鲁什金,布劳顿实验室的创始人。刚才我对此很感兴趣