WTF是自动语音识别吗?

2020-05-12 14:20:28

我对人工智能趋势感兴趣,这些趋势塑造了人与技术的交叉和互动方式。

自动语音识别(ASR)是将口语转换为文本。如果你曾经使用过像Siri或Alexa这样的虚拟助手,那么你一定有过使用自动语音识别系统的经验。这项技术正在短信应用、搜索引擎、车载系统和家庭自动化中实施。

尽管所有这些系统依赖的技术流程略有不同,但它们的第一步都是相同的:捕获语音数据并将其转换为机器可读的文本。

在本文中,我将简要介绍自动语音识别。我们将研究语音到文本的转换过程,如何构建ASR系统,并触及未来ASR技术的前景。

但是要从输入到输出,音频数据需要是机器可读的。这意味着通过声学模型和语言模型发送它。这两个过程的工作方式如下:

声学模型确定一种语言中的音频信号和语音单元之间的关系,而语言模型将声音与单词和单词序列相匹配。

这两个系统允许ASR系统对音频输入进行概率检查,以预测音频输入中有哪些单词和句子。然后,系统从这些预测中选择置信度最高的预测。*。

*有时语言模型可以优先考虑由于其他因素而被认为更有可能的某些预测

因此,如果我们通过ASR系统运行a短语,它将执行以下操作:

值得一提的是,如果自动语音识别系统是语音用户界面的一部分,那么ASR模型将不是唯一起作用的机器学习模型。许多自动语音识别系统与自然语言处理(NLP)和文本到语音(TTS)系统配对以执行其给定的角色。

也就是说,深入研究语音用户界面本身就是一个完整的话题。要了解更多信息,请查看这篇文章。

现在我们知道了ASR系统是如何工作的,但是您需要做些什么来构建一个ASR系统呢?

一个好的ASR系统应该是灵活的。它需要理解各种音频输入(语音样本),并根据这些数据创建准确的文本输出,以便做出相应的反应。

为了实现这一点,ASR系统需要标记语音样本和转录的形式的数据。这比这要复杂一些(例如,数据标记过程非常重要,但经常被忽视),但出于本文的目的,让我们让事情变得简单。

ASR系统需要大量的音频数据。为什么?因为说话很复杂。说同一件事有很多不同的方式,句子的意思会随着单词的位置和强调而改变。还要考虑到世界上充满了不同的语言,在这些语言中,根据位置和口音等因素,发音和选词可能会有所不同。

考虑到这一点,您为ASR系统提供的语音样本越多,它在识别和分类新语音输入方面的表现就越好。从广泛的声音和环境中获得的样本越多,系统在识别这些环境中的声音时就越好。通过专门的微调和维护,自动语音识别系统将在使用过程中得到改进。

所以在最基本的层面上,数据越多越好。确实,目前正在进行优化较小数据集的研究,但目前大多数模型仍需要大量数据才能很好地执行。

幸运的是,多亏了数据集库和专用的数据收集服务,音频数据收集变得越来越简单。这反过来又加快了技术发展的速度,所以为了完成这件事,让我们简要地看看自动语音识别在未来可以发挥什么作用。

ASR技术已经将自己嵌入到我们的社会中。虚拟助理、车载系统和家庭自动化都在为日常生活创造便利。他们的能力范围很可能也会扩大;随着更多的人采用这些服务,这项技术将进一步发展。

除了上述示例之外,自动语音识别还在各种有趣的领域和行业发挥作用:

交流:随着全球手机的普及,ASR系统即使对读写能力较低的社区也能提供消息传递、在线搜索和基于文本的服务。

提高可访问性:自动语音识别系统还可以通过免提访问应用程序以及为电视、电影和商务会议提供自动字幕来帮助残疾或受伤人士。

军事技术:在美国、法国和英国,军事项目一直在测试和评估战斗机的ASR系统。这包括设置无线电频率、指挥自动驾驶系统和控制飞行显示等任务。

这些只是ASR如何支持和改善生活的几个例子,很可能在新的改编的同时,未来十年还会有更多的改进。

无论如何,我希望这篇文章很好地介绍了ASR系统是如何工作的,如何构建它们,以及对未来的展望。如果您有任何意见或想法,请随时在下面留言,我会尽快找到它。

非常感谢您的阅读。有关人工智能新闻和机器学习发展的更多信息,请在Twitter上关注我。