WellSaid实验室的研究将合成语音从几秒钟长的片段增加到几个小时

2020-09-23 02:54:54

自去年公开亮相以来,该公司一直在努力将其技术从令人印象深刻的演示产品提升为商业产品,并在此过程中找到了一个有利可图的利基市场。

首席技术官Michael Petrochuk解释说,早些时候,该公司的技术基本上是基于之前的研究-谷歌的Taco tron项目,该项目为人工语音的真实感建立了一个新的标准。

“尽管两年前就发布了,但Taco tron 2仍然是最先进的。但它有几个问题,“彼得罗丘克解释说。“第一,它不快--它需要3分钟才能产生1秒的音频。它是为模拟15秒的音频而设计的。想象一下,在一个工作流程中,你生成10分钟的内容--这比我们想要的要差几个数量级。“。

WellSaid完全重建了他们的模型,将重点放在速度、质量和长度上,这听起来像是同时“专注”于所有东西,但总有很多参数需要优化。结果是一种模型,可以用15种声音(和几种语言)中的任何一种在大约一半的实时时间内生成极高质量的语音-所以一分钟长的剪辑大约需要36秒才能生成,而不是几个小时。

这种看似基本的能力有很多好处。它不仅速度更快,而且使处理结果变得更简单、更容易。作为音频内容的制作人,您只需插入数百字长的脚本,听听它输出了什么,然后通过几个按键调整它的发音或节奏。Taco tron改变了合成语音空间,但它从来都不是真正的产品。WellSaid以自己的进步为基础,既创造了一款可用的软件,也可以说是一个整体更好的语音系统。

作为证据,该模型生成的剪辑-15秒的剪辑,这样它们就可以与Taco tron和其他人竞争-在WellSaid组织的测试中达到了一个里程碑,被评为与人类声音一样好的评级。对于这类事情没有客观的衡量标准,但让很多人来权衡人类的声音是一个很好的起点。

作为团队在这些条件下实现“人类平等”的工作的一部分,他们还发布了一些音频片段,展示了该模型如何能够产生更多要求更高的内容。

它生成了用西班牙语、法语和德语(我不是其中任何一种的母语,所以不能再多说了)听起来似是而非的演讲,展示了它在复杂和语言上困难的单词(如化学计量学和卤化)、根据上下文而不同的单词(自助餐、沙漠)等方面的能力。最大的成就必须是对玛丽·雪莱的“弗兰肯斯坦”进行连续8小时的阅读。

但有声读物并不是WellSaid用来作为进一步发展的阶梯的行业。相反,他们在极其乏味但必要的企业培训领域工作,赚了一大笔钱。您知道,这类视频解释策略、记录内部工具的使用,并解释销售、管理、开发工具等方面的最佳实践。

企业学习材料通常是独一无二的,或者至少是为每家公司量身定做的,可能需要几个小时的音频--这是一种替代方案,可以说“这里,读一下这个包裹”,或者让每个人都聚集在一个房间里,看一张几十年前的办公室行为dvd。让如此强大的技术发挥作用并不是最令人兴奋的地方,但事实是,对于初创公司来说,无论你认为你的技术有多么具有变革性,如果你赚不到钱,你就会沉没。

“我们在企业培训领域找到了一个甜蜜点,但在产品开发方面,它帮助我们建立了这些基础要素,以获得越来越大的空间,”增长主管马丁·拉米雷斯(Martin Ramirez)解释说。“声音无处不在,但我们必须务实地看待我们今天为谁而建。最终,我们将提供可以创建和分发任何声音的基础设施。“。

起初,这可能看起来像是在像其他语言一样缓慢地扩大公司的服务方向--WellSaid的系统没有英语“烘焙”,而且考虑到其他语言的培训数据在这些语言中应该表现得同样好。所以这是一条简单的前进道路。但其他行业也可以使用改进的语音功能:播客、游戏、广播节目、广告、治理。

该公司方法的一个重大限制是,该系统是由人操作的,本质上是用来录制虚拟配音演员的。这意味着它对那些需要改进合成语音的群体没有用处-许多影响自己语音的残疾人,整天使用基于语音的界面的盲人,甚至是在国外旅行并使用实时翻译工具的人。

“我认为WellSaid在不久的将来会服务于那个用例,”Ramirez说,尽管他和其他人小心翼翼地不做出任何承诺。但今天,它的建造方式,我们真的相信人类生产者应该与引擎互动,使其处于自然的、人类平等的水平。动态渲染场景正在以相当快的速度逼近,我们想为此做好准备,但今天还没有做好准备。“。

该公司拥有“大量的跑道和客户”,而且发展迅速-所以现在不需要资金,谢谢风险投资公司。