Facebook表示,它正在向能够像人一样与物理世界互动并理解物理世界的助手取得进展。在今天的一篇博客文章中,该公司宣布了一些里程碑,暗示其未来的人工智能将能够学习如何规划路线,查看物理环境,聆听正在发生的事情,并建立3D空间的记忆。
体验式人工智能的概念借鉴了体验式认知,这一理论认为心理学的许多特征-人类或其他-是由有机体整个身体的各个方面塑造的。通过将这一逻辑应用于人工智能,研究人员希望提高聊天机器人、机器人、自动驾驶车辆,甚至与环境、人和其他人工智能互动的智能扬声器等人工智能系统的性能。例如,一个真正的机器人可以检查门是否锁上了,或者取回楼上卧室里响起的智能手机。
Facebook在一篇博客文章中写道:“通过追求这些相关的研究议程,并与更广泛的人工智能社区分享我们的工作,我们希望加快在构建具体化人工智能系统和人工智能助手方面的进展,这些系统和人工智能助手可以帮助人们在物理世界中完成广泛的复杂任务。”
虽然视觉是感知的基础,但声音可以说同样重要。它捕捉到了丰富的信息,通常是通过视觉或力数据无法察觉的,比如干树叶的质地或香槟酒瓶内的压力。但很少有系统和算法利用声音作为一种工具来建立物理理解,这就是为什么Facebook发布SoundSpaces作为其具体化人工智能努力的一部分。
SoundSpaces是基于3D环境的声学模拟的音频渲染语料库。该数据集旨在与Facebook的开源模拟平台AI Habit一起使用,它提供了一个软件传感器,使其能够在扫描的现实世界环境中插入声源模拟。
SoundSpaces与卡内基梅隆大学(Carnegie Mellon University)一个团队的工作无关,该团队发布了一个“声音-动作-视觉”数据集和一系列人工智能算法,以调查音频、视觉和运动之间的互动。在一份预印的论文中,他们声称,结果表明,声音的表示可以用来预测物体在受到物理力时会移动到哪里。
与卡内基梅隆大学的研究不同,Facebook表示,创建SoundSpaces需要声学建模算法和双向路径跟踪组件来模拟房间内的声音反射。由于材质会影响在环境中接收到的声音,例如在大理石地板上行走而不是在地毯上行走,因此SoundSpaces还会尝试复制墙等表面的声音传播。同时,它允许渲染放置在流行数据集(如Matterport3D和Replica)环境中多个位置的并发声源。
除了数据,SoundSpaces还引入了一个Facebook称为AudioGoal的挑战,在这个挑战中,特工必须在一个环境中移动才能找到一个发出声音的物体。这是一种训练人工智能在不熟悉的地方看到和听到声音目标的尝试,Facebook声称与传统方法相比,它可以实现更快的训练和更高精度的导航。
“这个AudioGoal座席不需要指向目标位置的指针,这意味着座席现在可以根据‘找到振铃的电话’而不是‘前往距离您当前位置西南25英尺的电话’而采取行动。”它可以使用多模态传感技术自己发现目标位置,“Facebook写道。“最后,我们学到的音频编码提供的空间线索与GPS位移相似,甚至更好。这表明音频是如何对室内环境中常见的GPS噪音产生免疫力的。“。
Facebook今天还发布了语义MapNet,这是一个模块,它使用一种空间-语义记忆的形式,在探索周围环境时记录对象的表示。(图像是在模拟中从模块的视点捕获的,与虚拟摄影机非常相似。)。Facebook断言,这些空间表示为完成一系列具体任务提供了基础,包括导航到特定位置和回答问题。
语义MapNet可以预测特定对象(例如,沙发或厨房水槽)在其创建的像素级自上而下地图上的位置。MapNet构建所谓的“以分配为中心”的内存,它指的是捕获(1)项之间与视点无关的关系和(2)项与环境之间的固定关系的助记符表示法。语义地图网络从它的观测中提取视觉特征,然后使用端到端框架将它们投影到位置,用它看到的对象的标签解码环境的自上而下的地图。
此技术使语义MapNet能够分割从鸟瞰视图中可能看不到的小对象。项目步骤还允许语义地图网对给定点及其周围区域的多个观测进行推理。Facebook写道:“这些构建神经情景记忆和空间语义表达的能力对于改进自主导航、移动操作和以自我为中心的个人人工智能助手非常重要。”
Facebook表示,除了SoundSpaces数据集和MapNet模块之外,它还开发了一种模型,可以推断出无法直接观察到的环境的地图部分,比如餐厅的桌子后面。该模型通过从静止图像帧预测占用率(即是否存在对象),并在学习导航其环境时随时间聚合这些预测来实现这一点。
Facebook表示,它的模型比最好的竞争方法性能更好,只使用了三分之一的移动数量,在相同的移动数量下,地图精确度提高了30%。在今年的计算机视觉和模式识别会议上,它还获得了一项任务的第一名,该任务要求系统适应糟糕的图像质量,并在没有GPS或罗盘数据的情况下运行。
需要注意的是,该模型尚未部署到真实世界中的真实机器人上-仅在模拟中部署。但Facebook预计,当与其支持LoCoBot等机器人的机器人框架PyRobot一起使用时,该模型可以加快具体化人工智能领域的研究。该公司在一篇博客文章中写道:“这些努力是Facebook AI长期目标的一部分,该目标是建立能够直观地对现实世界进行思考、规划和推理的智能AI系统,在现实世界中,即使是例行公事也是高度复杂和不可预测的。”
Facebook最近在这一领域的另一项工作是连续环境中的视觉和语言导航(VLN-CE),这是一项针对人工智能的训练任务,涉及通过聆听自然语言指令在环境中导航,比如“沿着大厅走,在木桌前左转。”另一个正在进行的项目EGO-TOPO将视频中捕获的空间分解为活动的拓扑图,然后将视频组织成对不同区域的一系列访问。