德黑兰计算机工程学院的新研究提供了一种改进的方法,可以创建能够阅读嘴唇的机器学习系统的挑战。
本文使用Viseme解码题为Lip读数,报告说,新系统在最佳的先前模型中达到了单词错误率的4%。该系统通过将鼠标映射到从翻译电影标题的OpenSubitles数据集中派生的六百万个样本的文本内容来解决本扇区中的普遍缺乏有用的培训数据。
Viseme是音素的视觉等同物,有效地是音频>图像映射可以构成机器学习模型中的“功能”。
研究人员开始通过在可用数据集中建立最低的错误率,并从既定的映射程序开发语音序列。逐渐,这个过程开发了一种看视觉词典 - 尽管有必要为分享异象的不同单词(如“心脏”和“艺术”)来定义精度的准确性概率。
如果两个相同的单词导致相同的触发器,则选择最常见的单词。
通过添加子处理阶段,该模型构建了传统的序列到序列学习,其中从文本中预测了探测并在专用管道中建模的探测:
该模型应用于2018年从牛津大学发布的LRS3-TED数据集的视觉上下文,最糟糕的单词错误率(WER)获得了可观的24.29%。
在对2017年牛津研究唇读句的测试中(见下文),视频到探测器方法达到了62.3%的单词误差率,而牛津方法的69.5%。
研究人员得出结论,使用更高体积的文本信息,结合图形到音素和Viseme映射,承诺在自动唇读机系统中的最新状态的改进,同时承认使用的方法甚至可能产生当结合到更复杂的当前框架时,更好的结果。
在过去的二十年中,机器驱动的唇读一直是计算机视觉和NLP研究的积极和持续的领域。在许多其他例子和项目中,2006年使用自动唇读软件捕获的头条新闻,当过去曾经解释了在他巴伐利亚撤退的一些着名的沉默电影中,虽然申请似乎已经消失在默默无闻中自(十二年后,彼得杰克逊先生采取了人类唇部读者恢复恢复项目中WW1镜头的对话,他们不会变老)。
2017年,普遍存在的嘴唇阅读句子在野外,牛津大学和谷歌的AI研究部门之间的合作产生了一种唇读的AI,能够在没有声音的情况下正确推断出48%的视频中的演讲,人类唇部读者只能达到12.4来自相同材料的%精度。该模型培训了数千小时的BBC电视镜头。
这项工作从前一年的单独牛津/谷歌计划开始,题为Lipnet,一个神经网络架构,该映射可变长度的视频序列与使用门控复发网络(GRN)的文本序列,这增加了基础架构的功能经常性神经网络(RNN)。该模型实现了4.1倍改善了人类唇读器的性能。
除了实时引发准确的成绩单的问题外,在删除有用的上下文时,从视频中解释语音的挑战会加剧,如音频,“面对面”素材,这是点亮的,以及音素/的语言/文化糊涂相对鲜明。
虽然目前没有对哪些语言的经验理解是在完全没有音频的缺失中最难以阅读的语言,但日本是一个冠军。日本当地人(以及某些其他西部和东亚当地人)利用面部表情反对其演讲的内容的不同方式已经使他们成为情绪分析系统的挑战。
然而,值得注意的是,这个主题的大部分科学文学都是谨慎的,这并非最不重要的是,因为这种球体的甚至善意的客观研究越来越跨越种族分析和现有刻板印象的颁布。 具有高比例的喉音组件(如车臣和荷兰语)的语言对于自动语音提取技术特别有问题,而扬声器可以通过看起来可以表达情绪或尊重的文化(再次,一般在亚洲文化中)添加另一个维度 唇读研究人员需要从其他语境线索中制定“填充”的其他方法。