机器人学中的几个悬而未决的问题

2020-07-30 06:41:51

机器人是商业搞笑报纸经常想知道的事情之一;似乎消费机器人是一个革命性的万亿美元市场,永远不会超过20年-或多或少就像核聚变。

我曾考虑过摆弄机器人,希望能造出一些能做科幻小说中有用的东西,比如去冰箱里给我拿瓶啤酒。在机器车间里摆弄数学似乎是一个很好的方式,最终会得到一些很酷、很有用的东西可以摆弄。要做到这一点,我的取啤酒机器人必须导航到我可能杂乱的公寓到冰箱前,打开门,在番茄酱瓶子、青鱼罐子、西兰花和其他无关紧要的物体中寻找形状/大小任意的啤酒瓶,把东西移开,抓住瓶子,然后回到我身边。在与世界著名的自动驾驶汽车专家交谈后,我被告知这是不可能的。自动驾驶汽车是机器人技术的一个子集。我上面描述的所有操作都是未解决的问题。当然,你可以做一些荒谬的变通办法,让它看起来像是自主行为。我也可以训练一只猴子或一只狗做同样的事情,或者站起来自己去拿该死的啤酒。

我猜想,在机器人学的公开问题中真的没有任何清单,因为这将是一长串令人沮丧的长篇大论。我想我会组装一个;我认为它会毫无理由地不完整,偶尔也会出错,但这可以通过实际存在来弥补所有这些。就像我的物理和天文学悬而未决的问题清单一样,我很可能在其中一些问题上错了,或者落后于时代,而且由于我的专长在于谷歌和5-10岁的酷哥在死而复生之间的对话,但这似乎是值得做的。

运动规划是一个实际的研究领域,有自己的期刊、学派、专家和一系列悬而未决的问题。像“我怎样才能让我的机器人从A点到B点而不掉进峡谷,不会卡住,或者一般不会处理障碍物”这样的问题都不能解决。甚至像机器人相对于周围环境的位置模型:完全是一个悬而未决的问题。如何知道你的机械手在太空中的位置,以及如何把它移到其他地方;悬而未决的问题。显然,取啤酒机器人需要做各种运动规划。任何可能的解决方案都将是临时的,对于一般情况,比如说,从机械车间的垃圾箱中取出螺钉,都是无用的。

多轴奇点--这个让我大吃一惊。想象一下,你有一只机械臂固定在地上。你想教这个愚蠢的东西油漆汽车之类的。运动方程中可能存在实际的奇点,这或多或少是一个欠约束问题。我猜在这一点上有解决办法,但它们都有不同的权衡。这就像宏观范围内的运动规划一样是一个悬而未决的问题。

同步定位和测绘。简称为SLAM。当你进入一个房间时,你的大脑确切地知道你的身体所在的位置,并绘制出周围环境的地图。机器人很难做到这一点。这个问题有很多解决方案,但最终最有用的是提前绘制一张真正好的地图。有一张模糊的或拓扑图或某种关于环境的先验信息:这些都是完全不同的问题,看起来它们应该有一个共同的解决方案,但却没有。虽然有些问题有解决方案,但它们不是通用的,而且绝对不是你可以为机器人购买SLAM模块的交钥匙。我可以给我的啤酒机器人编程,让它知道我房间的所有情况,但总会有新的障碍(一双鞋,一本书)不在它的模型中。它需要SLAM来处理。

迷失机器人问题。相关的;如果我醒来,我的朋友把我的床搬到另一个房间,我们都会大笑。如果大多数机器人失去了它的位置,它将不知道该怎么办。它需要一个战略来处理这个问题。这些策略并不是笼统的。我极有可能在房间的不同位置和位置打开我的啤酒机器人,它将不得不处理这一问题。现在想象一下我把它放在公寓楼的其他地方。

物体操纵和触觉反馈。很大程度上还没有完成。人类的手是一种令人惊叹的东西,机器人操作员远不能通过触觉反馈进行操作,甚至无法简单地基于视觉识别来操作现实世界的物体。即使是像用一个简单的可抓取的平面拿起一个静止的物体这样的事情,也是人们一直在发布的一个巨大的悬而未决的问题。我的啤酒机器人可以有一个特殊的操纵器来抓取一种特定类型的啤酒瓶,或者许多形状的啤酒瓶模型,但如果我让同一个机器人给我拿一个胡萝卜或一罐蛋黄酱,我就不走运了。

深度估计。一种物体操纵的子集;你会认为机器人具有双目视觉,或者甚至只是能够戳到物体并看到它移动的能力,这是非常简单的事情。这在很大程度上是一个悬而未决的问题。对于我的取啤酒机器人来说,深度估计是一个问题,即使啤酒每次都在冰箱的同一位置(机器人不会这样,取决于它的轨迹)。

运动物体的位置估计。如果你不能知道一个物体有多远,你肯定很难估计一个移动的物体在做什么。数据中尉不会很快打棒球的。如果我的啤酒机器人有一个看起来像人类的开瓶器,它就需要这样的技术。

启示发现如何预测与你互动的物体在你与它互动时会做什么。在我的例子中,机器人需要一个模型,来描述在搜索我的冰箱寻找啤酒瓶时,物体在移动到一边时可能会有什么行为。

场景理解:这一点应该很明显。我们正处在图像识别有用的时刻:我在高速公路上开了一辆奥迪,它可以检测到并在某种程度上遵守高速公路上的路线。我非常肯定它最终会检测到卡车停在我前面的路中央,但是尽管有这个相当琐碎的“你会变成路上的披萨”,如果(Object_In_Front){APPLE_BREAK}水平的理解,它没有显示出能够进行如此多推理的证据。完全公开的问题。我要指出的是,谦逊的苍蝇理解“在你面前拉屎;避免”的概念是没有问题的,这使得机器人和奥迪的大脑远远不如家蝇。即使把明显的问题放在一边,想象一下,如果你的机器人的任务是从冰箱里给我拿出一瓶啤酒,而有一瓶番茄酱把啤酒弄得模糊不清。机器人将无法处理。即使有啤酒瓶和番茄酱瓶子概念的三维模型,给机器人编程也是非常复杂的。

有一个叫做莫拉维克悖论的东西,我以前提到过。

让计算机在智力测试或跳棋中表现出成人水平的表现相对容易,但在感知和移动方面很难或不可能让它们拥有一岁儿童的技能。

机器人学体现了莫拉维克悖论。这其中有一种推论,那些在“实际人工智能”这个小领域工作的人(而不是站在自己位置之上的ML叮当)过去都知道这一点。这是在谷歌和其他欺诈案的营销部门让客观思考这一点变得不可能之前。这个想法是智力和意识自发地产生于生物运动控制系统。

我认为这个想法来自罗杰·斯佩里(Roger Sperry),但不管怎样,它过去是广为人知的,至少在一定程度上被接受了。这些生物运动控制系统甚至存在于微观水平上;即使是像草履虫这样的单细胞生物,或者像九头蛇这样没有真正神经系统的原始动物,也能够解决我们甚至在一般情况下用最新的NVIDIA超级计算机也无法解决的问题。虽然机器人是一个高尚的职业,机器人专家解决了极其困难的问题,但动物的行为应该给出一个很大的古老的暗示,表明他们做得不对。

像罗德尼·布鲁克斯(Rodney Brooks)这样的人似乎接受了这一点,他们建造了各种机器人,这些机器人将使用原始的硬件和反馈导向的想法而不是程序化的想法来学习如何行走。它甚至还有一个名字:“新人工智能”(Nouvelle AI)。我不知道这些想法发生了什么;我想他们太难取得进展了,尽管早期的结果看起来令人印象深刻。现在布鲁克斯博士有了一个博客,在那里他认为会飞的汽车和“真正很快”的自动驾驶汽车等滑稽的事情即将到来。

我敢说,我认为今年的罗德尼·布鲁克斯关于自动驾驶汽车的说法是错误的,但我认为80年代的罗德尼·布鲁克斯可能走在正确的道路上。也许沿着正确的道路走下去太难了:这通常就是正确的方式。我们都知道紧急系统在各种现象中都是超级重要的,但我们没有数学或模型来处理它们。所以我们最终得到了像GPT-3这样的无用的马屎。

情况可能是这样的,至少,一个真正的“人工智能”需要有一种物理形式,并能够与其环境互动。针对上述问题提出的许多算法解决方案都是NP-Hard问题。对我来说,这意味着像我们使用的计算机这样的垃圾是错误的。我们确实一直以其他方式近似地解决NP-Hard问题;你可以用肥皂泡来解决,但“计算机”的设计与冯·诺依曼机器有很大的不同:它是一台模拟机器,我们不在乎无限的精度。

你可以在各种拟议的神经形态计算模型中看到其中的一些:非常明显的是,生物神经元中没有发生随机梯度下降或对比发散这样的事情。像液体状态机这样的尖峰模型更接近原始神经系统的工作方式,而且在冯·诺伊曼硬件上很难模拟(一些NPC正准备对我喋喋不休地说“教堂图灵命题”:不要)。我认为,与用ROS编写python代码相比,使用更像简单神经系统的模拟物可以解决许多机器人的开放问题。