这可能违反直觉。但一些人认为,训练必须在混乱的现实世界环境中工作的人工智能系统(如自动驾驶汽车和仓库机器人)的关键实际上不是真实世界的数据。相反,有人说,合成数据将释放人工智能的真正潜力。合成数据是生成的,而不是收集的,咨询公司Gartner估计,用于训练人工智能系统的数据中有60%将是合成的。但它的使用存在争议,因为合成数据是否能准确反映现实世界的数据,并为人工智能系统为现实世界的情况做好准备,仍然存在疑问。
英伟达已经接受了合成数据的趋势,并正在努力成为年轻行业的领导者。十一月,NVIDIA创始人兼首席执行官Jensen Huang宣布推出全能复制器,NVIDIA将其描述为“一个用于生成人工智能数据的引擎,用于训练人工智能网络。”为了弄清这意味着什么,IEEE Spectrum采访了Nvidia仿真技术和Omniverse工程副总裁雷夫·勒巴雷迪亚。
Omniverse Replicator被描述为“一个强大的合成数据生成引擎,可以生成用于训练神经网络的物理模拟合成数据。”你能解释一下这意味着什么,尤其是你所说的“物理模拟”是什么意思吗?
勒巴雷迪亚牧师:电子游戏本质上是对梦幻世界的模拟。有人试图让游戏的物理部分变得现实一些:当你炸毁一堵墙或一栋建筑时,它就会倒塌。但在大多数情况下,游戏并不试图真正做到物理上的精确,因为这在计算上非常昂贵。所以它总是关于:为了使它成为一个可处理的计算问题,你愿意做什么近似?视频游戏通常必须在小型计算机上运行,比如控制台,甚至是手机上。所以你有这些严格的限制。游戏的另一个特点是,它们是梦幻世界,它们是为了好玩,所以现实世界的物理和准确性不一定是件好事。
有了Omniverse,我们的目标是做一些在实时世界模拟器中从未做过的事情。我们试图对世界进行物理上精确的模拟。当我们说物理精确时,我们指的是物理的所有相关方面。物理世界中事物的外观是光如何与物质相互作用的物理学,所以我们对此进行模拟。我们用刚体物理、软体物理、流体动力学以及其他相关的东西来模拟原子之间的相互作用。因为我们相信,如果你能足够紧密地模拟现实世界,那么你就会获得超能力。
勒巴雷迪亚:首先,你可以进行远程传送。如果我能把这个房间放在我周围,并在虚拟世界中表现出来,现在我可以在那个世界中移动我的相机,并传送到任何位置。我甚至可以戴上虚拟现实耳机,感觉自己就在里面。如果我能同步真实世界和虚拟世界的状态,那就真的没有区别了。我可能会在火星上安装传感器,接收真实世界,并在实时或8分钟后将该信息的副本发送到地球,或者以光速从火星传播到地球所需的任何方式。如果我能虚拟地重建那个世界并沉浸其中,那就好像我在8分钟前传送到火星一样。
给定一些关于世界状态的初始条件,如果你能足够准确地模拟,那么你就有可能预测未来。假设我现在在这个房间里,我拿着这个电话。我可以模拟当我放开手机,手机掉下来的那一刻发生了什么,如果我的模拟足够接近,那么我可以预测这部手机将如何掉下来并撞到地面。最酷的是你可以改变初始条件,做一些实验。你可以说,替代未来会是什么样子?如果我重新配置我的工厂,或者就如何在我的环境中操作东西做出不同的决定,会怎么样?这些不同的未来会是什么样子?这允许你进行优化。你可以找到最好的未来。
好吧,这就是你试图用Omniverse构建的。这些对人工智能有什么帮助?
勒巴雷迪亚:在这个人工智能的新时代,开发高级软件不再是一个拥有笔记本电脑的研究生所能做的事情。这需要认真的投资。人类未来将开发的所有最先进的算法都将由需要大量数据的系统进行训练。这就是为什么人们说数据就是新的石油。而且,收集数据的大型科技公司似乎有着天然的优势。但事实是,对于我们未来将要创建的大多数人工智能,我们收集的数据都没有那么有用。
当我们为2017年[the conference]SIGGRAPH做演示时,我注意到了这一点。我们有一个可以玩多米诺骨牌的机器人,我们有多个人工智能模型需要训练。其中一个基本的是一个计算机视觉模型,它可以检测桌子上的多米诺骨牌,告诉你它们的方向,然后告诉你每个多米诺骨牌上有多少个点子:一个、五个、六个,或者其他什么。
谷歌肯定会拥有你训练这种人工智能所需的所有图像数据。
勒巴雷迪亚:你可以搜索谷歌图片,你会发现很多多米诺骨牌的图片,但你会发现,首先,它们都没有标签。人类必须标记每一张骨牌是什么以及每一张骨牌的侧面,这需要大量的体力劳动。但即使你通过了标签,你也会发现图像没有太多的多样性。我们需要我们的算法对不同的光照条件具有鲁棒性,因为我们将在实验室对其进行训练,然后将其带到SIGGRAPH的展厅。我们使用的摄像头和传感器也可能会发生变化,因此周围的条件可能会有所不同。我们希望该算法能适用于任何类型的多米诺骨牌,无论它们是塑料、木材还是任何材料。所以,即使对于这个非常简单的事情,必要的数据也不存在。如果我们要去收集这些数据,我们就必须购买几十个甚至数百个不同的多米诺骨牌,设置不同的照明条件和不同的传感器等等。所以,当时,我们很快在游戏引擎中编写了一个随机多米诺骨牌生成器,将所有这些东西随机化。一夜之间,我们训练了一个模型,这个模型可以很好地做到这一点,它在会议中心用不同的摄像机工作。
这是一个简单的例子。对于一些更复杂的东西,比如自动驾驶汽车或自动机器,我们需要的数据量,以及这些数据的准确性和多样性,是不可能从现实世界中获得的。真的没办法。如果没有精确的物理模拟来生成这些人工智能所需的数据,我们就不可能取得进展。
有了Omniverse Replicator,客户是否能得到一个一刀切的合成数据生成器?还是为不同的行业量身定制?
勒巴雷迪亚:我们用Omniverse构建的是一个非常通用的开发平台,任何人都可以根据自己的特殊需求进行定制。开箱即用,你可以得到多个渲染器,它们是光和物质物理的模拟器。你可以得到一系列的数据,让你在速度和准确性之间进行权衡。
我们有很多方法将3D数据作为输入引入Omniverse Replicator,以生成您需要的数据。如今,几乎所有人造的东西,都有一个3D虚拟表示。如果你在设计一辆汽车、一部手机、一栋建筑、一座桥梁,或者其他任何东西,你需要使用CAD工具。问题是,所有这些工具都使用不同的语言。数据的格式不同。很难将它们结合起来,构建一个包含所有这些组成部分的场景。
有了Omniverse,我们经历了连接所有这些现有工具并协调它们的困难。我们在一个名为universal scene description的系统上构建了Omniverse,该系统最初由皮克斯开发,后来是开源的。我们认为USD对于虚拟世界的意义就像HTML对于网页的意义一样:它是描述事物的常用方式。我们围绕USD构建了很多工具,让用户转换数据、修改数据、随机化数据。但源数据几乎可以来自任何地方,因为我们有连接到所有相关不同工具的连接器。
你能给我举一个使用Replicator为人工智能培训制作合成数据的行业的例子吗?
勒巴雷迪亚:我们展示了自动驾驶汽车的例子。有大量资金用于研究如何让车辆自动驾驶,合成数据正在成为人工智能系统培训的主要部分。我们已经在Omniverse Replicator中为这个领域做了一些专门的工作:我们有巨大的户外世界,有道路、车道、汽车、行人和街道标志等等。
我们还为机器人技术做了一些专门研究。但是,如果我们不支持你的领域开箱即用,因为它是一个工具包,你可以用它做你喜欢的事情。人们有很多途径来引入自己的3D数据或获取数据来构建虚拟世界。还有图书馆和第三方3D资产提供商。
对于一家自动驾驶汽车公司来说,生成合成数据的优势在于,它可以在危险条件下对车辆进行训练,对吗?它能把雪和冰,硬转弯,诸如此类的东西?
勒巴雷迪亚:他们可以改变白天和夜间的条件,在你不想在现实世界中建造的危险情况下安置行人和动物。我们不想让人类或动物在现实生活中处于危险的境地,但我确实希望我的自动驾驶汽车知道如何应对这些边缘情境。因此,如果我们能在安全第一的虚拟世界中训练他们,我们就能两全其美。
因此,这些合成数据可以在人工智能训练中用作“地面真相数据”,并带有超精确的内置标签。但这是最好的训练策略吗?这些人工智能系统通常需要在信息不完整和不完美的世界中运行。
勒巴雷迪亚:这对训练有好处。当今大多数人工智能的创建方式都是通过一种称为监督学习的学习方式。在一个可以区分猫和狗的神经网络的例子中,你首先在猫和狗的图片上训练它,这些图片被标记为:这是一只猫,这是一只狗。它从这些例子中学习。然后你把这个网络应用到没有标签的新图像上,它会告诉你每个图像是什么。
例如,在自动驾驶汽车中,你想让你的汽车通过传感器观察世界,了解周围所有汽车和行人的相对3D位置。但它只是得到一个只有像素的2D图像;没有相关信息。因此,如果你要训练一个网络来推断3D信息,你首先必须在2D中画一个框,然后你必须告诉它,‘这是根据传感器使用的特定镜头的距离。’但如果我们在Omniverse中合成数据,我们就能以完全物理精度获得所有3D信息。我们可以提供准确的标签,而不会出现人为引入系统的错误。因此,我们训练的神经网络将更加智能和准确。
在这种情况下,过度装修是一个问题吗?使用合成数据训练的系统在合成数据上表现良好,但在现实世界中失败,这是否存在危险?
勒巴雷迪亚:合成数据实际上是解决过度拟合问题的一种很好的方法,因为我们更容易提供多样化的数据集。如果我们训练一个网络来识别人们的面部表情,但我们只训练高加索男性,那么我们已经过度适应高加索男性,当你给它更多不同的主题时,它就会失败。合成数据并不会让情况变得更糟。但有了合成数据,我们更容易创造多样性的数据。如果我正在生成人类的图像,并且我有一个合成数据生成器,它允许我改变人们的面部结构、肤色、眼睛颜色、发型,以及所有这些东西。
合成数据似乎有助于解决算法偏差这一大问题,因为算法偏差的来源之一是用于训练人工智能系统的数据集中的偏差。我们能否使用合成数据,在我们更愿意生活的无偏见世界中,而不是在我们实际生活的世界中,对人工智能进行培训?
勒巴雷迪亚:我们正在合成人工智能诞生的世界。他们出生在一台电脑里,他们只需要接受我们提供给他们的任何数据的训练。因此,我们可以用我们想要的多样性来构建理想世界,我们的人工智能也可以因此变得更好。当他们完成时,他们比我们在现实世界中的任何人都更聪明。当我们把他们放在现实世界中时,他们的表现会比只接受他们在这里看到的东西的训练要好。
那么,使用合成数据的陷阱是什么呢?它容易受到敌对攻击吗?
勒巴雷迪亚:对抗性攻击,类似于过度拟合问题,并不是合成数据相对于任何其他类型的数据所独有的。解决方案就是拥有更多的数据和更好的数据。
合成数据的问题在于,生成好的合成数据很难。它需要你有一个像Omniverse这样的很棒的模拟器,一个物理上精确的模拟器,这样它才能很好地匹配现实世界。如果我们创建一个合成数据生成器,使图像看起来像卡通,那就不够好了。你不会想把一个只会解读卡通世界的机器人放在医院里,在那里它将与老人和儿童一起工作。那将是一件可怕的事情。你需要你的模拟器在物理上尽可能精确,以利用这一点。但这是一个极其困难的问题。