为了沿着最快的“赛道”急转弯而不失去控制,赛车手必须按精确的时间顺序刹车、转向和加速。这个过程取决于摩擦力的极限,它们受已知的物理定律控制,这意味着自动驾驶汽车可以学习以尽可能快的速度完成一圈(就像一些人已经做的那样)。但当自动驾驶者不得不与其他车辆共享空间时,这就成了一个更棘手的问题。现在,科学家们已经通过训练一个人工智能程序,在超现实的赛车游戏Gran Turismo Sport中超越人类竞争对手,基本上解决了这一挑战。这些发现可能会为自动驾驶汽车的研究人员提供新的方法,使这项技术在现实世界中发挥作用。
人工智能已经征服了某些电子游戏中的人类玩家,比如星际争霸II和Dota 2。索尼人工智能美国公司(Sony AI America)董事、这项新研究的合著者彼得·沃尔曼(Peter Wurman)表示,Gran Turismo与其他游戏在很大程度上有所不同。这项研究于本周在《自然》杂志上发表。他解释说:“在大多数游戏中,环境定义了规则,并保护用户彼此不受影响。”。“但在比赛中,赛车彼此非常接近,人工智能特工必须学习和运用一种非常精致的礼仪。为了赢得比赛,他们必须尊重对手,但他们也必须保持自己的驾驶路线,并确保他们不只是让路。”
索尼人工智能研究人员使用了一种称为深度强化学习的技术来教授他们的程序。他们奖励AI的某些行为,比如留在赛道上,保持对车辆的控制,尊重比赛礼仪。然后,他们放宽计划,尝试不同的比赛方式,以实现这些目标。索尼人工智能团队训练了多个不同版本的人工智能,称为Gran Turismo Sophy(GT Sophy),每个版本都专门在一条特定轨道上驾驶一种特定类型的汽车。然后,研究人员将该项目与人类大旅游冠军进行对比。在去年7月进行的第一次测试中,人类获得了最高的团队总分。在2021年10月的第二次运行中,人工智能突破了。它以个人和团队的形式击败了人类敌人,获得了最快的圈速。
人类玩家似乎已经坦然接受了他们的失败,有些人喜欢与人工智能较量。索尼人工智能(Sony AI)战略与合作总监艾丽卡·加托·马库斯(Erica Kato Marcus)说:“我们还从司机那里听到的一些事情是,他们也从Sophy的动作中学到了新的东西。”。艾米莉·琼斯是国际汽联认证的2020年格兰赛车锦标赛的世界决赛选手,后来与GT Sophy进行了比赛。她说:“人工智能使用的线路非常复杂,我可能只会做一次。但这太难了,我永远不会在比赛中尝试。”。虽然琼斯说,与人工智能竞争让她感到有点无能为力,但她形容这种经历令人印象深刻。
琼斯说:“和许多体育运动一样,赛车就是尽可能接近完美的一圈,但你永远无法真正达到这一点。”。“对于索菲来说,看到完美的一圈真是太疯狂了。没有办法再跑得更快了。”
索尼团队正在进一步开发人工智能。Wurman说:“我们为每种车轨组合培训了一名代理,GT Sophy的一个版本。”。“我们正在考虑的一件事是:我们可以训练一个单一的策略,可以在游戏中任何轨道上的任何汽车上运行吗?”在商业方面,索尼人工智能还与索尼互动娱乐子公司Polyphony Digital Gran Turismo的开发商合作,可能将GT Sophy的一个版本纳入游戏的未来更新中。要做到这一点,研究人员需要调整人工智能的性能,使其成为一个具有挑战性的对手,但即使对于技能不如迄今为止测试过人工智能的冠军的球员来说,也不是不可战胜的。
因为Gran Turismo提供了一个关于特定汽车和特定赛道的真实近似值,以及控制每个赛道的独特物理参数,所以这项研究也可能在视频游戏之外有应用。人工智能研究公司OpenAI的软件工程师布鲁克·陈(Brooke Chan)是OpenAI五项目的合著者,该项目在Dota 2上击败了人类。他说:“我认为有趣的一点是,它与Dota游戏的区别在于,它处在一个基于物理的环境中。”。“它还没有出现在现实世界中,但仍然能够模拟现实世界的特征,因此我们正在训练人工智能,以便更了解物理世界。”(Chan没有参与GT Sophy研究。)
斯坦福大学机械工程教授J·克里斯蒂安·格德斯(J.Christian Gerdes)没有参与这项新研究,他说:“Gran Turismo是一个非常好的模拟器,它在一些方面被游戏化了,但它确实忠实地代表了不同汽车和不同赛道的许多差异。”。“在我看来,这是最接近任何发表论文说人工智能可以在赛车环境中与人类并驾齐驱的人的事情。”
然而,并非所有人都完全同意。Steven Shladover说:“在现实世界中,你必须处理一些事情,比如骑自行车的人、行人、动物、从卡车上摔下来的东西和掉在路上的东西,你必须能够避免这些,恶劣天气、车辆故障等等。”,加利福尼亚大学交通研究所加利福尼亚高级交通技术合作伙伴(加利福尼亚PATH)项目的研究工程师,他也没有参与《自然》杂志。“这些东西都没有出现在游戏世界中。”
但是Gerdes说GT Sophy的成功仍然是有用的,因为它颠覆了关于自动驾驶汽车编程方式的某些假设。自动化车辆可以根据物理定律或人工智能训练做出决策。Gerdes说:“如果你看看文献中的内容,以及在某种程度上人们在路上做的事情,那么运动规划器将倾向于基于优化的物理,感知和预测部分将是人工智能。”。然而,对于GT Sophy,人工智能的运动规划(例如决定如何在不造成碰撞的情况下以其性能的最高极限接近拐角)基于公式的人工智能方面。他说:“我认为自动化汽车开发人员应该吸取的教训是:这里有一个数据点,也许我们的一些先入为主的观念需要重新审视,即这个问题的某些部分最好在物理学中完成。”。“人工智能或许也能在那里玩。”
格德斯还表示,GT Sophy的成就可以为人类和自动化系统互动的其他领域提供借鉴。他指出,在Gran Turismo中,人工智能必须平衡实现赛道周围最快路线的难题和与往往不可预测的人类顺利互动的难题。“如果我们真的有一个人工智能系统,可以在那种环境下做出一些复杂的决策,那可能不仅仅适用于自动驾驶,”格德斯说,“但也适用于机器人辅助手术或帮助家庭的机器等交互。如果你有一项任务,其中一个人和一个机器人一起工作来移动某物,在某些方面,这比机器人试图自己做的要复杂得多。”