在数十年的追逐创造人工智能中,计算机科学家设计并开发了各种复杂的机制和技术,以复制视觉,语言,推理,运动技能以及与智能生活相关的其他能力。虽然这些努力导致AI系统可以有效地解决有限环境中的特定问题,但它们缺乏在人类和动物中看到的一般情报。
在向同行评审人工智能学报提交的新论文中,英国的AI实验室深度辩称认为,智力及其相关的能力不会出现在制定和解决复杂的问题,而是通过坚持简单但强大的原则:奖励最大化。
题为“奖励足够的”,这篇论文仍然处于本次写作的预防之类的纸张,从研究自然智能的演变以及近期人工智能成果的绘画课程中汲取灵感。作者表明,奖励最大化和试验和错误体验足以制定表现出与智力相关的能力的行为。由此,他们得出结论,加强学习,基于奖励最大化的AI分支会导致人工综合情报的发展。
创建AI的一种常见方法是尝试复制计算机中智能行为的元素。例如,我们对哺乳动物视觉系统的理解引起了可以对图像进行分类的各种AI系统,定位照片中的对象,定义对象之间的边界等。同样,我们对语言的理解有助于开发各种自然语言处理系统,例如问题应答,文本生成和机器翻译。
这些都是狭窄的人工智能的实例,设计用于执行特定任务而不是具有一般问题解决能力。一些科学家认为,组装多个窄AI模块将产生更高的智能系统。例如,您可以拥有一个软件系统,该软件系统可以在单独的计算机视觉,语音处理,NLP和电机控制模块之间坐标,以解决需要多种技能的复杂问题。
深入研究人员提出的创建AI的不同方法是重新创建一种对自然智能产生的简单而有效的规则。 “[我们]考虑一个替代假设:最大化奖励的通用目标足以推动展示大多数的行为,如果不是自然和人工智能研究的所有能力,”研究人员写道。
这基本上是大自然的作品。就科学而言,我们在我们周围看到的复杂生物中没有完全智能设计。数十亿年的自然选择和随机变化过滤了生存和繁殖的健身生活。生活的生物能够更好地处理他们的环境中的挑战和情况,以便生存和繁殖。其余的被淘汰了。
这种简单但有效的机制导致了生活生物的演变,具有感知,导航,修改环境的各种技能和能力,并在自己间沟通。
“动物和人类面临的自然世界,并且可能也是人工代理人面临的环境本质上是如此复杂的是,他们需要复杂的能力,以便在这些环境中成功(例如,生存)”,“研究人员写。 “因此,通过最大化奖励来衡量的成功要求与智力相关的各种能力。在这种环境中,最大化奖励的任何行为必须都必须表现出这些能力。从这个意义上讲,奖励最大化的通用目标包含许多或可能是智力的所有目标。“
例如,考虑一种松鼠,寻求最小化饥饿的奖励。一方面,当食物可用时,其感官和运动技能有助于它定位和收集螺母。但是当食物变得稀缺时,只能找到食物的松鼠必然会死于饥饿。这就是为什么它还具有规划技能和内存,以缓存坚果并在冬季恢复它们。松鼠有社交技能和知识,以确保其他动物不会偷取坚果。如果您缩小,饥饿最小化可以是“保持活力”的子群,这也需要检测和隐藏危险动物的技能,保护自己免受环境威胁,并寻求更好的栖息地具有季节性变化。
“当与智力相关的能力作为奖励最大化的单一目标的解决方案时,这实际上可能提供更深入的了解,因为它解释了为什么这样的能力出现,”研究人员写道。 “相比之下,当每个能力被理解为自己的专业目标的解决方案时,为什么问题是侧面的,以便专注于这种能力。”
最后,研究人员认为,最大化奖励的“最通用和可扩展的”方式是通过与环境互动学习的代理商。
在论文中,AI研究人员提供了一些高级示例,即如何在最大化许多可能的奖励信号中含义中的“智能和相关能力”的一些高级示例,对应于自然或人工智能的许多务实目标可以指导。“
例如,感官技能服务需要在复杂的环境中生存。对象识别使动物能够检测食物,猎物,朋友和威胁,或找到路径,避难所和栖息。图像分割使它们能够讲述不同物体之间的差异,并避免致命错误,例如逃离悬崖或从分支中掉落。同时,听力有助于发现当伪装时动物无法看到或发现猎物的威胁。触摸,味道和嗅觉也给动物带来了具有更丰富的栖息地感觉体验的优势,并且在危险环境中更大的生存率。
奖励和环境还在动物中塑造了生物和学习知识。例如,敌意的栖息地被捕食者动物统治,例如狮子和猎豹奖励有自然知识的反刍动物物种,以自出生以来逃避威胁。与此同时,动物也奖励他们的权力,以了解他们的栖息地的具体知识,例如在哪里找到食物和庇护所。
研究人员还讨论了语言,社会情报,模仿的奖励基础,最后,一般情报,它们形容为“在一个复杂的环境中最大化单一奖励”。
在这里,他们在自然情报和AGI之间创作了一个类比:“动物的经验流足够丰富,变得越来越多地,可能需要灵活的能力来实现各种子公司(如觅食,战斗或逃离)成功最大化其整体奖励(如饥饿或复制)。同样,如果人工代理商的经验流足够丰富,那么许多目标(如电池 - 寿命或生存)可能隐含地需要实现同样多种子板的能力,因此奖励的最大化应该足以产生一个人为的一般情报。“
强化学习是AI算法的特殊分支,由三个关键要素组成:环境,代理和奖励。
通过执行操作,代理更改其自己的状态和环境。根据这些行动的影响,代理人必须实现的目标,它是奖励或惩罚。在许多强化学习问题中,代理商没有对环境的初步知识,并通过随机动作开始。基于其收到的反馈,代理商学会调整其行动并制定最大化其奖励的策略。
在他们的论文中,Deepmind的研究人员建议加强学习作为可以复制自然所看到的奖励最大化的主要算法,最终可能导致人为的一般情报。
“如果代理人可以不断调整其行为,以提高其累计奖励,那么其环境一再需要的任何能力必须最终在代理的行为中产生,”在最大化的过程中,添加了,补充说,补充一点它的奖励,一个良好的加强学习代理人最终可以学习感知,语言,社会情报等。
在本文中,研究人员提供了几个例子,展示了加强学习代理商如何能够学习游戏和机器人环境中的普遍技能。
然而,研究人员强调一些基本挑战仍未解决。例如,他们说,“我们没有对加固学习代理的样本效率提供任何理论保证。”强化学习被众所周知地闻名,需要大量数据。例如,钢筋学习代理可能需要几个世纪的游戏玩法来掌握电脑游戏。 AI研究人员仍然没有讨论如何创建能够概括各个领域的加强学习系统。因此,对环境的略微变化通常需要模型的完全再培训。
研究人员还承认,奖励最大化的学习机制是一个未解决的问题,仍然是在加固学习中进一步研究的核心问题。
Patricia Churchland,神经科学家,哲学家和加利福尼亚大学San Diego大学的Emerita教授将纸张的想法描述为“非常仔细,深入了解”。
然而,教堂指出了本文对社会决策的讨论中可能的缺陷。深度研究人员专注于社会互动的个人收益。最近在道德直觉的生物学起源书写一本书的教堂辩称,依恋和粘合是社会决策的强大因素,哺乳动物和鸟类是为什么动物把自己置于保护孩子的危险之中。
“我曾倾向于看到粘接,因此其他护理,作为自己的范围的延伸,因为自己是”我和我的“的”山地“。 “在这种情况下,我认为,对[纸张的]假设的小修改为允许对我来说的奖励最大化会很好地工作。当然,我们的社会动物具有依恋 - 超强的依恋程度,非常强大,伴侣和亲属,强大的朋友和熟人等,附件类型的强度取决于环境,以及发展阶段。 “
教堂说,这不是一个重大批评,并且可能很优雅地融入假设。
“我对论文中的细节程度感到非常深刻,他们考虑了可能的弱点,”墓地说。 “我可能错了,但我倾向于将此视为一个里程碑。”
数据科学家Herbert Roitblat挑战了纸张的立场,即简单的学习机制和试验和错误体验足以发展与智力相关的能力。 Roitblat认为,在现实生活中实施它们时,纸上的理论面临着几种挑战。
“如果没有时间约束,那么试验和错误学习可能足够,但否则我们有一个无限数量的猴子打字的问题,”Roitblat说。无限的猴子定理指出,在打字机上击打无限时间的猴子可以最终键入任何给定的文本。
Roitblat是算法的作者是不够的,他解释了为什么所有当前的AI算法包括加强学习,需要仔细制定人类创造的问题和表示。
“一旦建立了模型及其内在代表,优化或加强可能导致其进化,但这并不意味着加固就足够了,”Roitblat说。
在同一静脉中,罗伊特布特补充说,本文没有对奖励,行动和其他钢筋学习的要素进行任何建议。
“加固学习假设代理具有有限的潜在动作。已指定奖励信号和值函数。换句话说,一般情报的问题恰恰是贡献加强学习作为预先要求的那些东西,“罗伊特布拉特说。 “所以,如果机器学习都可以减少到某种形式的优化,以最大化一些评价措施,那么强化学习必须是真实的,但这不是很解释。”
Ben Dickson是一名软件工程师和TechTalk的创始人。 他写了关于技术,商业和政治。 VidtureBeat' S使命是成为技术决策者的数字城市广场,以获得有关转型技术和Transact的知识。您网站提供有关数据技术和策略的基本信息,以指导您的领导您的组织。 我们邀请您成为社区的成员,访问:门控思想领导者内容和对我们奖化事件的折扣访问,如转换2021:了解更多 成为会员