深度强化学习帮助我们掌握复杂性

2021-07-24 10:56:21

深度强化学习——机器通过测试其行为的后果来学习——是人工智能最有前途和影响力的领域之一。它将深度神经网络与强化学习相结合,可以一起训练以通过多个步骤实现目标。它是自动驾驶汽车和工业机器人的重要组成部分,它们必须安全、准时地在复杂的环境中航行。大多数机器学习算法擅长感知任务,这些任务需要一个人在一秒钟内完成,例如识别声音或人脸。但是深度强化学习可以学习战术动作序列,例如赢得棋盘游戏或交付包裹。这些战术序列更接近我们认为的实际智能行为。如果我们说某人很聪明,我们很少指他们可以识别面孔。我们通常的意思是他们知道如何实现目标。 Covariant 和 Ambi Robotics 等初创公司正在使用强化学习来控制机械臂,而特斯拉等汽车制造商则使用它来帮助驾驶车辆。令人印象深刻的是,强化学习可以做的不仅仅是控制单个机器。它可以指挥整个机器管弦乐队、引导复杂系统提高性能、路由车队并协调机器人团队。复杂性理论描述了具有许多互锁部分的不断变化的系统,这些部分会根据输入的微小变化产生令人惊讶的结果(想想飓风中的蝴蝶效应)。在那个理论中,有一种叫做紧急行为的东西。当系统中的许多小组件将自己组织成更大的、更大规模的可感知模式时,行为就会出现。飓风、蚁群和鸟群都是小单位自我组织成更强大的东西的好例子。通过深度强化学习,机器人和自动驾驶汽车在更大的复杂系统(例如交通或全球供应链)中表现出紧急行为。也就是说,这些机器开始表现得像团队一样,即使它们从未被明确指示这样做。通过培训,他们了解到团队合作会带来更好的结果。在工厂中,这可能意味着一个 AGV 机器人会牺牲自己的速度,以便让更高优先级的有效载荷通过,从而提高系统的整体吞吐量。在很长一段时间内,复杂性理论是一种思考起来很有趣但很难采取行动的东西。深度强化学习使复杂性理论具有可操作性,因为它允许我们创建和引导紧急行为。它使我们能够应对过于庞大而人类无法完全理解的系统。深度强化学习之于复杂性就像基因工程之于进化:杠杆和加速。

人类似乎需要一点杠杆和加速。事件的匆忙使得我们生活的复杂系统似乎正在失控。深度强化学习将其中的一些带回了我们的掌握之中。大多数决策系统都难以应对数据的意外变化。他们接受过在某些情况下做出决定的训练,当发生不可预见的事情时,他们会崩溃。它们很脆。深度强化学习可以以可概括的方式响应可变数据和不可预见的事件。这样做的一个原因是,在模拟中,您可以针对以前从未发生过且历史数据中不存在的事件对其进行训练。仿真有助于制造业将自主机器人和车辆从测试带入现实场景。强化学习适应现在发生的事情,并且可以快速更新其对运行环境的期望和理解。这意味着人工智能驱动的优化和决策可以应用于许多以前无法解决的新问题。这意味着我们将能够让我们的机器更智能,而在此之前,我们依赖脆弱的规则和直觉。强化学习响应不可预见事件的能力使其作为现代供应链问题的解决方案越来越有趣。就在去年,全球和国家供应链受到的外部冲击包括 COVID-19、经济封锁、地缘政治僵局、极端天气事件(德克萨斯州的风暴)以及一艘 20 万吨的船舶阻塞了苏伊士运河。世界还没有恢复。供应链——从上游的工厂开始,贯穿港口、铁路站场和仓库,再到零售——是一个庞大而复杂的系统。这些系统需要具有适应性,但新闻告诉我们它们并非如此。深度强化学习可以提供帮助的一个用例是能源消耗,它可以通过帮助我们生产更多清洁和可再生能源、在供应链中更有效地使用该能源并更智能地消耗该能源来应对气候变化。能源网只是电力供应链。但是,可再生能源比传统能源更易发生变化,因为它们的输出取决于天气。

深度强化学习可以为无人机和机器人以及照料太阳能发电场的维修人员提供更好的决策。它可以帮助制定发电厂的旋转、补充储备和备用供应计划,以及平衡化石燃料发电与更多可变可再生能源。它可以校准分布式系统中家庭可再生能源的产生、存储和消耗方式,从而降低电网负载。它可以帮助能源密集型工厂预测电价飙升并提前采取行动。类似形式的系统控制可以应用于农业,机器人喂养牲畜和收割庄稼并弥补劳动力短缺,以及采矿场,在那里,自动运输卡车比乘用车世界走得更远,因为它们不工作-高速公路。全自动运输卡车和钻探系统通过降低燃料和劳动力成本以及使操作更安全来创造新的效率。总之,深度强化学习不仅仅是智能机器人的智能核心,它还能够充当更大系统的控制塔,这是当今社会面临的关键问题之一。通过大规模学习机器团队的紧急行为,深度强化学习可以帮助我们适应更大的系统性变化,以保持我们的系统正常工作。这很重要,因为我们现在制造和运输货物的系统庞大、相互关联且脆弱,而使它们更加强大是未来几年的关键挑战。 Chris Nicholson 是 Pathmind 的创始人兼首席执行官,Pathmind 是一家人工智能初创公司,将深度强化学习应用于供应链和工业运营。