Mozilla Common Voice 计划发布了一个新的、扩展的数据集,其中包含 16 种新语言——如巴萨语和哈萨克语——以及 4,622 小时的新语音。 Mozilla Common Voice 是一项开源计划,旨在使语音技术更具包容性。贡献者将语音数据捐赠给公共数据集,然后任何人都可以使用该数据集来训练支持语音的技术。 Common Voice 社区经理 Hillary Juma 说:“互联网访问越来越多地通过语音进行中介:语音助手和智能扬声器为我们提供方向、搜索信息、将我们与朋友联系起来、用于辅助技术等等。然而,这项技术并不适用于数百万人。例如,亚马逊的 Alexa、苹果的 Siri 和 Google Home 都不支持单一的非洲本土语言。”希拉里继续说道:“通过让个人能够分享他们的演讲,我们可以帮助确保所有社区都能使用语音技术并获得它所带来的机会。” 最近几个月,Mozilla 还宣布了三名 Common Voice 研究员,投资 340 万美元用于推动东非的工作,并与 NVIDIA 建立合作伙伴关系。“通过让个人能够分享他们的演讲,我们可以帮助确保所有社区都能使用语音技术并获得它所释放的机会。”--最新版本引入了 16 种新语言Common Voice 数据集:巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克语、阿塞拜疆语、豪萨语。
-- 总小时数排名前五位的语言是英语(2,630 小时)、基尼亚卢旺达语(2,260 小时)、德语(1,040 小时)、加泰罗尼亚语(920 小时)和世界语(840 小时)。 -- 百分比增长最多的语言是泰语(增长近 20 倍,从 12 小时到 250 小时)、卢干达语(增长 9 倍,从 8 小时到 80 小时)、世界语(增长超过 7 倍,从 100 小时到 840 小时)小时)和泰米尔语(增长超过 8 倍,从 24 小时到 220 小时)。