帕特里夏·斯坎隆(Patricia Scanlon)博士是Soapbox Labs的创始人兼首席执行官。Soapbox Labs是一家总部位于都柏林的开发专门为儿童设计的安全语音识别技术的公司。她被评为2018年福布斯科技50强女性之一。
在大流行之前,超过40%的新互联网用户是儿童。据估计,随着12岁及以下的儿童每天在屏幕上的时间超过5个小时(包括所有相关的好处和危险),儿童的屏幕时间已经激增了60%或更多。
尽管很容易惊叹数字原住民的技术实力,但教育者(和家长)痛苦地意识到,年轻的“远程学习者”往往难以驾驭实现教育技术承诺所需的键盘、菜单和界面。
在这种背景下,支持语音的数字助理对与技术进行更顺畅的互动抱有希望。但是,尽管孩子们喜欢让Alexa或Siri打击机、讲笑话或发出动物的声音,但家长和老师们知道,一旦这些系统偏离了可预测的请求,他们就很难理解最年轻的用户。
这一挑战源于这样一个事实,即为Alexa、Siri和谷歌(Google)等流行语音助手提供动力的语音识别软件从来都不是为儿童设计的,他们的声音、语言和行为比成年人复杂得多。
这不仅仅是因为孩子的嗓音更尖了,他们的声道越来越细、越来越短,他们的声带变小了,他们的喉咙还没有完全发育。这导致了与年龄较大的孩子或成年人非常不同的说话模式。
从下面的图表很容易看出,简单地改变用于训练语音识别的成人声音的音调不能再现理解儿童语音所需的信息的复杂性。儿童的语言结构和模式千差万别。它们在句法、发音和语法方面取得了飞跃,这些都是语音识别系统的自然语言处理部分需要考虑的。这种复杂性由于处于广泛不同发展阶段的儿童之间的说话人之间的差异而变得更加复杂,这些差异不需要用成人语言来解释。
儿童的言语行为不仅比成年人更加多变,而且极其反复无常。孩子们会过度发音,拉长某些音节,在大声思考时给每个单词加标点符号,或者完全跳过一些单词。他们的讲话模式不受为成年用户构建的系统所熟悉的常见韵律的影响。作为成年人,我们已经学会了如何最好地与这些设备互动,如何获得最佳反应。我们挺直身子,在头脑中形成要求,根据习得的行为修改要求,大声说出要求,深呼吸…。“Alexa…。“孩子们只是脱口而出他们不假思索的要求,就像Siri或Alexa是人类一样,而且经常得到错误的或预先录制的回应。”
在教育环境中,语音识别不仅必须应对环境噪音和教室的不可预测性,还必须应对儿童全年语音的变化,以及典型小学中口音和方言的多样性,这一事实加剧了这些挑战。儿童和成人之间的身体、语言和行为差异也随着孩子年龄的增长而急剧增加。这意味着,从语音识别中获益最多的年轻学习者,对开发人员来说是最难构建的。
为了解释和理解儿童语言的高度多样化的怪癖,需要构建语音识别系统,以便有意地学习孩子们的说话方式。儿童的语言不能简单地视为语音识别要适应的另一种口音或方言;它从根本上和实际上是不同的,它随着儿童身体的成长和语言技能的发展而变化。
与大多数消费环境不同,准确性对儿童有着深远的影响。当孩子对的时候告诉他们是错的(假阴性)会损害他们的信心;当他们错了(假阳性)会告诉他们是对的,这样的系统会有社会情感(和心理测量)伤害的风险。在娱乐环境中,在应用程序、游戏、机器人和智能玩具中,这些假阴性或阳性会导致令人沮丧的体验。在学校,错误、误解或刻板的回应可能会对教育和公平产生更深远的影响。
例如,语音识别中有据可查的偏见可能会对儿童产生有害影响。对于特定人口统计或社会经济背景的孩子来说,产品的准确性较差-提供假阳性和假阴性-是不可接受的。越来越多的研究表明,语音对孩子们来说可能是一个极其有价值的界面,但我们不能允许或忽视它有可能放大我们学校本已普遍存在的偏见和不平等。
语音识别有可能成为孩子们在家中和课堂上的强大工具。它可以填补在支持儿童通过识字和语言学习阶段的关键空白,帮助儿童更好地理解-以及被理解-他们周围的世界。它可以为一个即使在偏远环境下也能可靠工作的“隐形”观测措施的新时代铺平道路。但今天的大多数语音识别工具并不适合这个目标。在Siri、Alexa和其他语音助手中发现的技术有一项工作要做-理解说话清晰和可预测的成年人-而且,在大多数情况下,他们很好地完成了这项工作。如果语音识别要为孩子们工作,它必须针对他们独特的声音、语言和行为进行建模,并做出响应。