Mozilla通用语音更新将帮助训练基于语音的网页浏览的“嘿Firefox”唤醒词

2020-07-03 22:03:38

Mozilla今天发布了最新版本的通用语音(Common Voice),这是一款开源的语音转录数据集,可供初创企业、研究人员和业余爱好者构建语音应用、服务和设备。Common Voice现在包含54种不同语言的总贡献语音数据超过7226小时,高于2019年2月的18种语言的1400小时。

Common Voice不仅由语音片段组成,还由自愿贡献的元数据组成,这些元数据对培训语音引擎很有用,比如说话人的年龄、性别和口音。它的设计目的是与DeepSpeech集成,DeepSpeech是一套开源的语音到文本、文本到语音的引擎,以及由Mozilla的机器学习小组维护的训练有素的模型。

收集普通话中的550万个片段需要大量的田野工作,也就是说,因为普通话网站上的提示必须被翻译成每种语言。尽管如此,到目前为止,7226个小时中的5591个小时已经被该项目的贡献者确认为有效。根据Mozilla的数据,通用语音的五种语言-英语、德语、法语、意大利语和西班牙语-现在有超过5000名独特的使用者,而七种语言-英语、德语、法语、卡比尔语、加泰罗尼亚语、西班牙语和基尼亚万丹语-有超过500个小时的记录。

今天还发布了Mozilla有史以来第一个数据集目标部分,旨在为特定目的和用例收集语音数据。这个片段包括从“0”到“9”的数字,以及单词“是”、“不”、“嘿”和“火狐”,11000人总共用18种语言说了120个小时。此前,Common Voice产品负责人梅根·布兰森(Megan Branson)表示,它将部分用于“嘿,Firefox”唤醒字测试。

VB Transform 2020 Online-7月15-17日。加入领先的人工智能高管:注册免费直播。

布兰森在一篇博客文章中写道:“这个细分数据将帮助Mozilla对我们的开源语音识别引擎DeepSpeech的准确性进行基准测试,在类似的任务中使用多种语言,并将就如何继续改进数据集提供更详细的反馈。”有了来自世界各地的贡献,你们正在帮助我们实现我们的目标,即创建一个任何人都可以公开获得的语音数据集,并代表我们生活的世界。“。

通用语音的更新是在DeepSpeech的重大更新之后进行的,DeepSpeech结合了迄今为止最快的开源语音识别模型之一。最新版本增加了对TensorFlow Lite的支持,TensorFlow Lite是Google的TensorFlow机器学习框架的一个发行版,针对计算受限的移动和嵌入式设备进行了优化,并将DeepSpeech的内存消耗减少了22倍,同时将其启动速度提高了500倍以上。

Common Voice和DeepSpeech Inform都致力于Mozilla项目,如Firefox Voice,这是一个向Firefox添加语音识别支持的浏览器扩展。目前,Firefox Voice可以理解诸如“天气如何”和“查找Gmail标签”之类的命令,但其目标是促进仅使用语音的网站之间的“有意义的互动”。