今天,在Alexa供应商和开发者合作伙伴的虚拟活动Alexa Live上,亚马逊发布了旨在实现新的Alexa语音应用体验的工具和资源。其中,该公司推出了深度神经网络,旨在使Alexa自然语言理解对自定义应用程序的理解更加准确,以及允许使用网络技术为选定的Alexa设备构建游戏应用程序的API。亚马逊还推出了Alexa Conversations测试版,这是一种基于深度学习的方式,使具有多轮对话的Alexa应用程序与其他Alexa应用程序互联。它还推出了一项新的预览服务-Alexa for Apps-让Alexa应用程序触发智能手机应用程序内的搜索等操作。
这些披露正值大流行增加语音应用程序使用量之际,语音应用程序的使用量已经处于上升趋势。根据NPR和爱迪生研究公司(Edison Research)的一项研究,从2020年初到4月初,每天至少使用一次命令的语音设备用户的比例有所上升。略高于三分之一的智能扬声器用户表示,他们从设备上听音乐、娱乐和新闻的次数比以前更多,用户报告说,今年平均每周向他们的助手请求10.8项任务,而2019年为9.4项不同任务。
亚马逊表示,用于自然语言理解的深度神经网络将意图和槽值识别准确率平均提高了15%。意图表示满足用户请求的操作,它们指定用户为调用意图而说的名称和话语。槽值是意图参数,如日期、短语和项目列表。Alexa Devices副总裁Nedim Fresko在接受VentureBeat电话采访时表示:“这从本质上改变了Alexa应用程序在幕后使用的建模技术。”“我们正在扩展它,以覆盖更多的应用程序…。它们就在外面。“。
亚马逊表示,到今年晚些时候,深度神经网络的使用将在美国、英国、印度和德国扩展到400项合格技能。深度神经网络目前可以从“给我买个苹果”推广到“为我订一个橙子”这样的短语。
多亏了新的NFI工具包(预览版),开发者可以选择向Alexa提供关于他们的应用程序可以处理的请求的额外信号。例如,他们可以提供客户可能用来启动应用程序的备用启动短语,以及Alexa在路由无名称请求时可以考虑的意图,然后查看客户从仪表板调用应用程序的路径。弗雷斯科说,早期采用者的使用量增加了15%。
Alexa Conversations是去年6月在亚马逊Re:Mars大会的开发者预览版上宣布的,它将创建语音应用程序所需的代码行从5500行缩减到了约1700行。利用人工智能更好地理解意图和话语,以便开发人员不必定义它们,对话将可能需要40次交流到12次左右的Alexa交互减少到12次左右。
开发人员提供API访问权限和API有权访问的实体等内容,实际上描述了应用程序的功能。一旦给定了这些和几个示例交换,会话的对话管理器就可以推断可能的对话轮次。
Conversations的第一个用例于去年演示,它无缝地将Alexa应用程序串联在一起,让人们可以购买电影票、召唤乘车服务和预订晚餐预订。(OpenTable、优步(Uber)和Atom Tickets是对话的早期采用者。)。鉴于这场大流行,这种情景似乎没有那么有用。但弗雷斯科说,它只是说明了对话是如何将来自多个应用程序的元素组合在一起,而不需要开发者付出太多努力;iRobot和哲理创造(发布Big Sky应用程序)等公司已经在使用它。
“对话真的很难用暴力技术来模仿。通常,开发人员求助于对话树和流程图来预测对话可能发生的每一个转折,复杂性可能会变得不成比例,“Fresko说。“通过对话,您无需手动构建上下文-我们只需为您构建上下文即可。”
Alexa Presentation Language(APL),一个旨在让开发人员更容易创建可视化Alexa应用程序的工具集,正在通过APL for Audio扩展到声音。APL for Audio包括新的混合功能,支持在Alexa应用程序中创建音频和音景;音频可以与Alexa语音混合,多个声音可以与音效混合在一起,或者视频可以与动态响应用户的剪辑同步。
Fresko说:“这反映了Alexa不仅在扬声器中有用,而且在各种设备中也变得有用的现实。”“这是对开发人员工作流程的一大改进--特别是氛围或冥想应用程序的开发人员,诸如此类的事情。”
加入APL for Audio的还有面向游戏的web API,它为Alexa开发人员提供了开放标准,如Canvas 2D、WebAudio、WebGL、JavaScript和CSS。在Echo Show和Select Fire TV设备上,开发人员可以使用游戏的Web API来创建体验,启动Web应用程序,这些应用程序在设备上显示,以处理语音请求,并对麦克风收听和静音等本地事件做出反应。最终用户可以通过语音、触摸或遥控器(在Fire TV上)与Web应用程序交互。
新的技能恢复功能将于本周以预览版发布,允许开发人员在Alexa设备上试验在后台运行应用程序。它保持了应用程序的逻辑不变,让客户根据需要在更长的一段时间内使用它,或者从他们停止的地方继续使用它。
Fresko举了个例子:一名用户告诉Alexa的Uber应用叫一辆车,然后从Uber应用切换到音乐、天气预报和新闻。随着汽车越来越近,优步应用程序会回到地面通知他们。“技能恢复…。让应用程序在后台主动通知用户,“Fresko说。“考虑一下冥想或健身应用程序,它们可以在用户执行其他任务时让计时器保持运转。”
技能恢复与Alexa for Apps相吻合,Alexa将iOS和Android应用程序的内容和功能与Alexa集成在一起。通过深度链接,开发人员可以将打开移动应用程序主页、呈现搜索结果和其他关键功能等任务分配给Alexa应用程序语音命令。弗雷斯科解释说,当用户向Alexa询问餐厅信息时,黄页类型的应用程序可以利用深度链接来调出餐厅的信息,而相机应用程序可以将Alexa命令绑定到快门按钮上。TikTok出版商ByteDance与亚马逊合作,支持命令“Alexa,让TikTok开始我的录制。”
使用Alexa的快速链接(美国英语和美国西班牙语的测试版),开发人员可以进一步利用深度链接来推动网站和移动应用程序到语音应用程序的流量。他们能够使用URL查询字符串参数深度链接到其应用程序中的特定内容,并添加属性参数来衡量在线广告活动的表现。这使得客户更容易找到技能,开发人员也更容易在各种媒体上宣传他们的技能。我们预计这将带来新的机会,“Fresko说。
今天还宣布:在选定的地区,客户现在可以在Amazon.com和带屏幕的Echo设备的显示屏上购买优质的应用内内容,如扩展包、月度订阅和消耗品。以前,进行这些购买的唯一方式是通过语音。(亚马逊仍然对消费者在Alexa技能上的确切花费三缄其口,但据一些人估计,每年至少有20亿美元。)