Facebook在AI Research中提出了Nethack作为一个大挑战

2021-06-10 11:09:26

Facebook今天提出了Nethack作为AI研究的大挑战,该公司在澳大利亚悉尼悉尼的神经潮端2021年AI会议上推出了竞争。这是Facebook的断言,即一个80年代的视频游戏,这是世界上最艰难的简单视觉效果,可以使数据科学家能够在复杂的环境中为最先进的AI方法进行基准,而无需运行实验强大的电脑。

几十年来,游戏曾担任AI的AI基准,但2013年真正踢进了装备 - 谷歌深度的一年展示了一个可以在超人级别发挥Pong,突破,空间入侵者,Seaquest,Beamrider,Enduro和Q *伯特的系统。根据DeepMind Cofounder Demis Hassabis等专家,进步不仅仅是改善游戏设计。相反,他们通知了可能有一天诊断疾病,预测复杂的蛋白质结构的系统和段CT扫描的系统。

特别是加强学习 - 一种可以学习协调大型系统的策略,如制造工厂,交通管制系统,金融投资组合和机器人的策略 - 正在从研究实验室转变为高度影响力,现实世界的应用。例如,像Weve和Waymo这样的自动驾驶汽车公司正在使用加强学习,为他们的汽车开发控制系统。通过微软的盆景,西门子正在采用强化学习来校准其CNC机器。

“仿真环境的最新进展已被仿真环境(例如星际争霸II,DOTA 2或MINECRAFT)等仿真环境推动。然而,这一进展以大量的计算成本为大量的计算成本,通常需要运行数千个GPU,以便单一的实验并行,同时也缺乏导致......可以转移到这些游戏之外的更真实世界问题的方法,“Facebook艾研究人员Edward Grefenstettent,TimRocktäschel和Eric Hambro在博客文章中写道。 “我们需要复杂的环境,突出显示RL的缺点,同时还可以以低计算成本进行极快的仿真。”

Facebook的提案遵循公司的Nethack学习环境(NHLE),这是一个基于原始的Nethack的研究工具。 (Nethack Challenge又基于NHLE。)Nethack,这是在1987年首次发布的,任务玩家随着50多个地下城水平来检索魔法护身符,在此期间,他们必须使用魔杖,武器,装甲,药水,法术书,其他物品和怪物。 Nethack的级别是程序生成的,每场比赛都不同,Facebook的研究人员注意到了领先AI的泛化限制。

“赢得一场以上的游戏需要长期规划在一个令人难以置信的不可浮选环境中。一旦玩家的角色死亡......游戏从一个完全新的地牢中的划痕开始,“格雷芬斯特,罗克齐尔和哈布罗继续。 “成功完成游戏作为专家播放器平均比平均星际争霸II游戏的步骤平均为25到50倍,而玩家与对象和环境的交互非常复杂,因此成功常常呼吁想象力解决问题创造性或令人惊讶的方式以及咨询外部知识来源[如]官方的Nethack指南,Nethack Wiki和在线视频和论坛讨论]。“

部分观察在Nethack必不可少的探索,程序生成和“PermAdeath”使得失效成本显着。和AI无法重置或干扰环境,使得在蒙特扎姆的复仇之类的STARCRALLII II或优步的GO-DEVERORE等系统等系统的方法。

“[Nethack中的挑战]范围从随机迷宫到更具结构化挑战,如大房间,如怪物和陷阱,城镇和堡垒,以及克拉肯侵犯水域,罗贝斯特,Rocktäschel和哈布罗的危险。 “在随机和丰富的游戏世界中处理曾经不断变化的观测的新方法要求开发有更好的机会与高度变化的现实世界的缩放机会。”

内人在其轻量级架构中具有另一个优势。基于转向的ASCII-ART WORLD和CHINAL IN C的游戏引擎捕获了其复杂性。 Nethack forge of guthes,而不是最简单的物理,同时渲染符号而不是像素,重要的是,允许ai快速学习而不浪费在模拟动态或渲染观察上的计算资源。

实际上,云中的培训复杂机器学习模型仍然非常昂贵。据最近的同步报告称,华盛顿大学的格罗弗,这对假新闻的一代和检测量身定制,在两周内培训25,000美元。 Openai为每小时256美元,培训其GPT-2语言模型,谷歌花费了估计的6,912美元训练BERT,一个双向变压器模型,重新定义了11个自然语言处理任务的最新技术。

相比之下,单个高端显卡足以使用TORCHBEAST框架每天每天训练数十亿步的射门的Nethack代理,这通过添加更多的图形卡或机器来进一步扩展。代理商可以在合理的时间范围内体验环境中的数十亿个步骤,同时仍在挑战当前技术可以实现的限制。

“[NHLE]可以训练加固学习代理......比十年旧的ATARI基准更快15倍[S]。此外,Nethack可用于测试更新最新的深度增强学习方法的限制,同时运行50到100倍的速度比可比难度的挑战快,同时提供更高程度的复杂性。“

NHLE由三个组件组成:使用流行的Openai健身房API,一套基准机组和基线机器学习代理商的Python接口。为了击败尼斯特克挑战,参赛者必须开发一个可靠的AI,可以可靠地赢得以终止或尽可能高的分数。在这样做时,竞争旨在产生对未来研究的不同方法和新基准的头脑比较,同时展示了NHLE作为研究的环境的适用性。

对于Nethack挑战,如何培训系统的培训没有限制,Facebook表示 - 欢迎参与者使用除了机器学习之外的技术,如果选择。奖励将获得(1)最好的总体AI系统,(2)未使用神经网络的最佳AI系统,以及(3)来自学术或独立团队的最佳AI系统。

Grefenstette,Rocktäschel和Hambro表示,实现这些目标将为专注于AI的具体方面的跟进竞争奠定基础。此外,Nethack挑战可能有助于为能够处理高度不同的环境和高成本的培训方法和建模方法提供光线,如必须从头开始重启,如果一个角色被生物杀死。

“许多现实世界和产业问题 - 例如 - 分享这些特征。因此,在Nethack中取得进展,在更广泛的应用程序中取得进展,“Grefenstette,Rocktäschel和Hambro说。

Facebook的Nethack挑战将与共同组织者AICROWD合作,并从6月初到10月开始进行。获奖者将于12月的神经潜逃宣布。

在覆盖游戏行业时,Gamesbeat' S信条是"热情符合业务的地方。"这是什么意思?我们想告诉您新闻如何对您而言 - 不仅是在游戏工作室的决策者,而且作为游戏的粉丝。无论您是阅读我们的文章,聆听我们的播客,还是观看我们的视频,GamesBeat将帮助您了解该行业,并享受与之享受。你会怎么做?会员资格包括访问:成为会员