我们介绍了Androidenv,这是一个开源平台,用于加固学习(RL)研究,基于Android Ecosystem之外。 Androidenv允许RL代理商通过通用触摸屏接口与人类通常使用的各种应用和服务进行交互。由于代理在Android设备的逼真模拟上培训,因此它们有可能部署在真实设备上。在本报告中,我们概述了环境的概述,突出了它提供的重大功能,我们在这平台上建立的一套任务上对一些流行的强化学习代理进行了实证评价。
近年来,加强学习(RL)研究界在追求通用学习算法方面取得了重大进展。环境的复杂性越来越复杂地推动了新颖的算法和代理,如DQN(Atari),alphago(Go),PPO(Mujoco)和AlphaStar(星际争霸II)。为了进一步推进最先进的,研究人员寻求新的更具刺激的环境来解决。
我们' recition介绍Androidenv,一个允许代理与Android设备进行交互的平台,并解决内置于Android OS之上的自定义任务。在Androidenv中,代理在屏幕上显示的图像进行决定,并通过触摸屏操作和手势等触摸屏幕。
通过访问整个Android操作系统,该组可能与代理商交互的可能服务和应用程序几乎是无限制的。例如,代理人可能会浏览Internet,打开YouTube应用程序,设置闹钟或播放游戏。 RL代理商在每日数十亿人使用的现实世界平台上运营的可能性开辟了新的研究机会。
除了平台的灵活性和实际世界方面,Androidenv是RL Research的特别吸引人的域,因为它的不同特征。学习解决Androidenv的任务要求代理人克服具有长期感兴趣的研究人员的多种类型的挑战:
转移和泛化:在所有应用中,观察和行动空间都是相同的,允许许多机会在跨越自然的任务中转移知识。
时间抽象:学习手势和灵活的撰写行动的方法对于代理能够处理巨大的本地行动空间是必要的。
实时动态:服务和应用程序在实时仿真中运行,使环境动态类似于机器人控制任务。
缩放:大尺寸的观察和动作空间对RL代理产生了一个有趣的缩放问题。
Android的大型生态系统开辟了定义各种任务的可能性,使代理商学习在同一平台上实现不同类型的目标。例如,人们可能会设定到公园的指示,预订飞行或最大化游戏中的分数的目标。 Androidenv提供了一种直接的机制,可根据任何Android应用程序灵活地创建此类自定义任务。除了明确的说明,我们'重新释放一组示例任务,展示了Androidenv中的可能性范围。这些包括在常见的Android实用程序上定义的任务,如时钟应用程序,以及众所周知的游戏,如2048年,纸牌或国际象棋。
我们也很高兴与Midjiwan,Midjiwan,Middia的创造者合作,将他们的游戏整合为Androidenv任务*。由于许多功能,我们发现这款游戏是一个特别有趣的挑战,例如需要处理长期规划,不完美信息,不同的UI元素和非确定性。
我们'重新释放Androidenv的社区,凭借其独特的特征,它将对现有RL环境的集合进行有用的补充,从而帮助推动RL研究的边界。
有关平台的更详细描述,请参阅关于Arxiv的技术报告,或查看我们的GitHub存储库。