本轮融资由LocalGlobe和Sands Capital Ventures以及Sky,GMG Ventures,Entrepreneur First(EF)和BDMI牵头。 Papercup表示,新资金将用于进一步投资于机器学习研究,并扩展其“人在回路”质量控制功能,该功能将用于改善和定制AI翻译视频的质量。
同时,Papercup现有的天使投资人包括Evi Technologies的创始人William Tunstall-Pedoe(该公司被亚马逊收购以创建Alexa)以及Uber的前首席科学家兼AI副总裁Zoubin Ghahramani,他现在是Google Brain领导团队的成员。
Papercup由Jesse Shemen和Gaojiagong Gao于2017年成立,当时正在通过EF的公司建筑商计划,Papercup正在构建一个基于AI和机器学习的系统,该系统据说能够将人的声音和表达能力翻译成其他语言。与许多文本到语音转换不同,这家初创公司声称最终的语音翻译与人类语音“无法区分”,并且也许独特地尝试保留原始说话者语音的特征。
最初,这项技术的目标受众是视频制作者,包括天空新闻,发现和YouTube明星瑜伽与阿德琳烯以及DIY内容创建者已经使用的技术。它被认为是纯人工配音的可扩展性更高,成本更低的替代品。
Papercup联合创始人兼首席执行官Shemen说:“世界上大多数视频和音频内容都被限制为一种语言。” “其中包括YouTube上数十亿小时的视频,数百万个播客节目,Skillshare和Coursera上的数万个课程以及Netflix上的数千小时的内容。几乎每个内容所有者都在争先恐后地走向国际化,但是还没有一种简单而又经济高效的方式来翻译内容而不是字幕。”
对于“资金雄厚的工作室”来说,当然可以选择通过专业配音工作室和配音演员来进行高端配音,但这对于大多数内容所有者来说太昂贵了。甚至是富裕的工作室也常常在其可以容纳多少种语言方面受到限制。
Shemen说:“这使内容所有者的中长尾巴-实际上占所有内容的99%-陷入困境,无法吸引国际观众,而不能产生字幕。” Shemen表示,这当然是Papercup发挥作用的地方。 “我们的目标是产生听起来尽可能接近原始说话者的翻译语音”。
为此,他说Papercup将需要解决四件事。首先是创建“自然听起来”的声音,即合成声音听起来多么清晰和像人一样。第二个挑战是保持情绪和节奏,以反映原始说话者的表达方式(想想:高兴,悲伤,生气等)。第三是捕捉某人声音的独特性(例如,摩根·弗里曼,但德语)。最后,最终的翻译需要音频与视频本身正确对齐。
Shemen解释说:“我们从尽可能使声音像人的声音和自然的声音开始,通过将技术磨合到任务上,在质量方面取得了相当大的飞跃,如今,我们拥有最好的声音之一。西班牙语语音合成系统投入生产。
“我们现在的工作重点是更好地保留和传达原始语言在各种语言中的原始情感和表现力,同时弄清楚究竟是什么才能使配音质量更高。”
下一个挑战,也是最难克服的挑战,是“扬声器适应性”,它被描述为捕捉某人声音的独特性。 Papercup首席执行官指出:“这是适应的最后一层,但这也是我们研究的第一个突破之一。虽然我们拥有可以做到这一点的模型,但我们将更多的时间集中在情感和表现力上。”
这并不是说Papercup完全由机器提供动力,即使可能只有一天。该公司还采用“人在环回”过程来对已翻译的音轨进行更正和调整。这包括纠正出现的任何语音识别或机器翻译错误,对音频的时间进行调整,以及增强情绪(例如开心,悲伤)并更改生成语音的速度。
循环中需要多少人取决于内容的类型和内容所有者的优先级,即他们需要将结果视频制作成多么真实或完美的内容。换句话说,这不是一场零和游戏,足够好了,足以使大量内容所有者受益。
当被问及这项技术的起步时,Shemen说Papercup是由联合创始人兼首席技术官高佳萌(“他非常聪明并且痴迷于语音处理”)进行的研究开始的。高先生在剑桥大学获得了两个硕士学位(机器学习和语音语言技术),并撰写了关于说话者自适应语音处理的论文。在剑桥,他意识到像Papercup之类的东西是可能的。
“当我们于2017年底在Entrepreneur First上开始合作时,我们建立了最初的原型系统,该系统表明,即使没有先例,这项技术甚至是可能的,” Shemen说。 “基于早期的对话,对我们正在构建的产品的需求显然是压倒性的–这实际上是构建可以在生产环境中使用的产品的功能”。