Wav2Lip:准确地将视频与任何语音同步

2020-11-09 03:31:21

在我们的论文中,一位假唱专家就是你在野外对嘴语音生成所需要的全部,ACM多媒体2020,我们的目标是在野外将不受限制的视频对口型同步到任何想要的目标语音。目前的作品擅长在训练阶段看到的特定人的静态图像或视频上做出准确的嘴唇动作。然而,它们无法准确地变形动态、不受约束的面孔视频中任意身份的嘴唇动作,导致视频的大部分内容与新音频不同步。我们找出与此相关的关键原因,并通过向强大的对口型鉴别器学习来解决这些问题。对我们具有挑战性的基准的广泛量化评估表明,我们的Wav2Lip模型生成的视频的口型同步准确率几乎与真实同步视频一样好。有关该模型和我们新颖的评估框架的更多详细信息,请查看我们的论文。

选择视频文件(最长20秒,文件名中没有空格):选择包含音频的音频文件(或)视频(最长20秒,文件名中没有空格):

使用我们的开源代码,你可以尝试假唱更高分辨率/更长的视频。您将能够调整推理参数,从而在相同的输入下获得更好的结果。

注意:如果没有得到视频结果,很可能意味着人脸检测器无法检测到所有输入视频帧中的人脸。动画电影剪辑有时会出现这种情况。生成结果可能需要一些时间(通常不超过一分钟)!所有结果目前都被限制在(最高)480p分辨率,并将被裁剪到最高分辨率。20s,将计算延迟降至最低。这个互动网站只是对Wav2Lip模型最基本功能的一个用户友好的演示。

本演示网站或开源代码的所有结果只能用于研究/学术/个人目的。由于这些模型是在LRS2数据集上训练的,因此严格禁止任何形式的商业使用。如有任何疑问,请与我们联系。

为了确保合理使用,我们强烈要求使用本站点或我们的代码创建的任何结果都必须明确表示为合成的,并且它是使用Wav2Lip模型生成的。此外,对于这项工作的强有力的积极应用,我们打算将我们的工作完全开源,因为它同时也可以鼓励人们努力检测被操纵的视频内容及其滥用。我们相信,Wav2Lip可以实现几个积极的应用,并鼓励有关合理使用合成内容的富有成效的讨论和研究努力。