看看Lip-ready AI,随着谷歌,索尼和华为支持的开发,因为初创公司开始在医院,公共交通系统中部署它,更多

2021-06-15 23:06:38

患者坐在医院病床上,绷带覆盖着他的脖子,为气管造口管提供了一个小的开口,用氧气为他提供。

由于他最近的手术,这个营销视频中的男人无法发声。所以医生拿起智能手机并在嘴巴时记录患者。一个名为Sravi的应用程序分析了唇部运动,大约两秒钟返回其解释 - “我需要吸入”。

似乎是一个简单的互动,在某些方面,Sravi(语音障碍的语音识别应用程序)仍然非常简单。它只能识别几十个短语,它确实具有约90%的准确性。但是由爱尔兰启动Liopa制造的应用程序代表了视觉语音识别(VSR)领域的大规模突破,这涉及训练AI读取嘴唇而没有任何音频输入。它可能是可用于公开购买的第一个唇读AI应用程序。

研究人员已经工作了几十年来教导电脑到唇部阅读,但即使在帮助破解其他地标问题的深度学习系统的进展方面,它也已经证明了一个具有挑战性的任务。该研究由各种可能的商业应用程序驱动 - 从监视工具到静默通信应用程序和改进的虚拟助理性能。

Liopa是在欧洲的I级医疗设备证明Sravi的过程中,公司希望在8月份完成认证,这将使它开始销售给医疗保健提供商。

虽然他们的技术的意图尚不清楚,但许多科技巨头也正在努力读书。根据访谈和主板对最近公布的研究和专利申请的评论,科学家们都研究了VSR系统,似乎正在研究VSR系统,似乎正在迅速进步。公司要么没有回应或拒绝对这个故事的访谈。

由于唇读AI出现作为可行的商业产品,技术人员和隐私看门狗越来越担心它是如何开发的以及如何部署有一天的发展。例如,Sravi不是Lipa正在努力的唇读AI的唯一应用。该公司还在一个与英国国防研究机构的项目中第二阶段开发一个工具,允许执法机构通过沉默的CCTV镜头搜索,并确定人们何时说出某些关键字。

监控公司摩托罗拉解决方案拥有唇读系统的专利,旨在帮助警方。 Skylark Labs是一个创始人与美国国防高级研究项目(DARPA)联系的创业公司,告诉主板,其唇读系统目前部署在私人住宅和印度的国家控制的电力公司中,以检测犯规和滥用语言。

“这是这些领域之一,从我的角度来看,这是一个”仅仅因为我们能够做到这一点的一个很好的例子,并不意味着我们应该,“Fraser Sampson,英国的生物识别和监控相机专员告诉主板。 “我对这一领域的主要关切不一定是技术可以做的事情以及它不能做的事情,这将是相信它可以做它所说的人的寒冷效果。如果那然后阻止他们在公共场合发言,那么我们就在一个更大的区域,而不是简单的隐私,隐私足够大。“

唇读AI的出现是让面部识别技术的让人想起,这是几十年来的基础研究领域,但在悄然而迅速,以2000年代初开始商业化。

面部识别的许多问题只在过去几年内成为公众知识,这在很大程度上由于积极受到伤害的人的研究和激进主义。具体而言,首先揭示了Joy Buolamwini和Timnit Gebru的汉语2018篇论文揭示了面部识别对妇女和人民的肤色不太准确。

当这些担忧进入主流话语时,面部承认在手机,私营企业,监视摄像机坐落在许多美国城市的街道上。由于面部识别,至少有三名黑人被错误地逮捕 - 实际数量几乎肯定是更高的 - 这项技术已经过去,用于跟踪黑人生活的抗议者,其中包括各种其他可疑的目的。在过去的两年里,近20年的技术近20年的技术,基层在十几个城市和国家的竞选方面导致了警察和私人面部认可的禁令。

反对面部识别的反弹是一种运动的象征,这是在思考AI研究人员如何考虑其发现的未来应用的思考的转变。例如,着名的神经潮端会议,例如,要求研究人员提交有关他们的发现如何影响社会的影响声明,而不是去年首次与他们的论文一起影响。

“研究很棒,但是当我们发现特定的知识或研究具有毁灭性的后果时,随着研究人员,我们有责任呼吁它并实施政策变化," Meredith Broussard,人工未经内容的作者:计算机如何误解世界,告诉主板。

唇读AI仍处于其初期作为商业技术,但早期关注监测正在促使科学在封闭式企业门背后的临时发展 - 在某些情况下 - 封闭式企业门 - 这也将再次变得显而易见晚了。

“这是真的,科学在一开始就太快了,但在过去的一年里,在vsr技术的道德考虑围绕伦理考虑出版的文献中有几次讨论,”斯塔夫罗斯皮格里迪斯说,他最近开始为Facebook工作,但与主板谈到他的主板以前在伦敦帝国学院的研究。 “鉴于尚未提供商业应用程序,在这项技术完全商业化之前,将考虑到这次伦理考虑的伦理考虑很大。”

伦敦帝国学院的博士候选人罗德里戈·米拉(学习唇读AI的领先团体之一),告诉主板,他和他的同事“知道我们的领域是有争议的。”他将集团的工作与渗透测试进行了比较 - 在​​计算机系统中找到漏洞的网络安全实践,以便修复它们。换句话说,该研究允许通过道德守则的学术机构在犯罪分子等口交部署之前发现新技术。

“AI中的主要是人们需要一直开始谈论政治,”米拉说。 “这不是关于我们是否应该停止研究,这是我们拥有这种权力,以便通过查看他们所说的话。我们该如何使用它?停止[不道德使用技术的方法]不是关闭帝国学院。处理那样的方式是将其作为一个政治问题。“

AI伦理主义者认为,需要采取面部识别和唇读AI等生物识别监视技术的早期和强大的政府监管,以防止歧视和危害 - 但到目前为止,许多政府未能制定适当的法律。这就是为什么研究人员不仅要考虑潜在后果,而且积极地包括最有可能在其决策过程中受到技术伤害的人群。

“这是关于积极创造一种能够掌握有害用途的技术,而不是识别和减轻现有技术的漏洞,”艾尔斯·西斯特(IN)的研究员告诉主板。 “研究人员并不总是放置在自己的评估。这就是为什么涉及在整个过程中涉及他们研究影响的社区如此重要,以期望和减轻潜在的有害二次用途。

Liopa Ceo Liam Mcquillan告诉主板,该公司至少有一年的系统,距离沉默的CCTV素材(Silent CCTV镜头)可以令人满意地令人满意的系统 - 这是由英国国防和安全加速器资助的项目 - 该公司已考虑隐私间隙的可能性。 “这里可能有担忧,实际上禁止使用这项技术的最终使用。 ......我们肯定没有投注刘帕,在这种用例上,但它正在提供资金。“

McQuillan还表示,该公司正在主动寻求通过培训从多样化的YouTube剪辑,志愿者通过集合应用程序提供视频的志愿者的数据来解决种族或性别偏见的潜力,以及通过集合应用程序贡献视频,以及策划数据集的公司专门旨在包括来自不同种族和种族的人。该公司尚未发表任何关于其系统在人口统计组织中所表现的研究。

主板确实找到了一家声称正在积极销售唇读AI系统的公司,它完全接受了监视市场。 Skylark Labs的创始人和首席执行官Amarjot Singh告诉主板,该公司最初推出了技术套件 - 这也包括面部识别和暴力和武器检测算法 - 印度的警察机构。但是,由于将其部署在拥挤的公共空间中的挑战,该公司发现了一些对唇读功能的胃口。

Skylark自以来枢转到其他用途。辛格表示,该公司' S唇读AI技术目前正在由旁遮普州邮政公司有限公司推动政府控制的实用程序,以检测互相骚扰员工的情况。他说,有几个人也购买了该技术来监测他们的保姆。

Skylark表示,它的唇读AI可以检测到与诅咒,滥用和暴力相关的50个不同的单词。据当地媒体报道,辛格发表了关于暴力检测和面部承认的研究,印度警察使用Skylark的无人机来强制执行社会疏远。但既不是辛格也没有公司发表任何关于唇读AI的研究。

主板联系了旁遮普邦州电力公司有限公司,个人辛格表示,在家中使用该技术,但在出版之前没有收到回复。

“我们在野外这样做并试图解决对人们安全有直接暗示的用例,”辛格说。 “我认为设计师可以控制系统应该标记的单词,所以我认为它仍然好的。这里的风险是,一旦你开始校准系统以在野外拿起日常演讲,那就是它变得非常毛茸茸的[道德]。“

研究人员和公司高管采访了这个故事告诉主板,在唇读AI前进之前将是多年来,足以解释完整的谈话,如果它完全发生了。

这项任务令人难以置信的挑战 - 甚至专家人类唇读者实际上非常糟糕的词语解释。 2018年,谷歌子公司深度发布研究揭示其最新的全句唇读系统。 AI在包含完整句子的视频上实现了41%的错误率(错误的单词百分比)。观看类似视频剪辑的人唇读者在鉴于视频的标题,主题类别和句子中的几个单词时,当没有关于主题的情况和86%的情况下,有93%的单词误差率为93%。使用大型定制的数据集进行该研究。

伦敦帝国学院本月介绍了一份文件,描述了一个全句唇读系统,在400小时的视频中培训了一个较小的公共可用数据集,可以实现低至37.9%的字错误率。

谈到单关键字唇读 - 刘帕和天窗实验室的类型是追求的 - 准确性要高得多,并且在去年的情况下显着改进。 2017年,野外数据集中的基准唇唇读取的最高准确性为83%。当Zenith仍然存在于2020年的同时,当时一系列的群体总是证明,他们可以高出83%的准确性。根据本月发布的一篇文章,帝国学院伦敦集团与三星合作,该记录目前是88.5%的准确性。

尽管如此,很难知道真正的Pinnacle是什么。 DeepMind - 许多专家仍然认为,自2018年纸张以来,尚未从其唇部阅读计划中发表任何进一步的研究,该公司已拒绝讨论该行业界。

许多研究人员主板讨论会犹豫不决,猜测大型技术公司打算与这种新兴技术有什么关系,或者在何处以及它将开始对更广泛的公众产生显着影响。

“AI和[机器学习]过去10年的一件事是我们向我们展示的是,没有办法以任何有意义的方式预测未来,”米拉说。 “但低估了事情真的是不明智的。”