Elegantrl:轻量级和稳定的深层加固学习图书馆

2021-03-18 03:38:38

优雅rl_demo.ipynb#demo 1〜4在jupyter笔记本电脑中。告诉您如何使用教程版本和高级版本。

作为高级概述,文件之间的关系如下。初始化Env.py和Agent.py中的代理中的环境。该代理商由Net.py的演员和批评网络构建。在运行中的每个训练步骤中,代理与环境交互,生成存储到重放缓冲区的转换。然后,代理从重放缓冲区获取转换以训练其网络。在每次更新之后,评估者会评估代理程序' s性能,如果性能好,则保存代理。

代理.store_transition(...):代理探讨了目标步骤中的环境,生成转换,并将它们存储到ReplayBuffer中。

Agent.Update_Net(...):代理使用从ReplayBuffer的批处理更新网络参数。

Evaluator.Evaluate_Save(...):评估代理商和#39; S的性能,并将培训的模型保持最高分。

当满足条件时,循环将终止,例如,实现目标分数,最大步骤或手动中断。

BipeDalwallerhardcore是连续动作空间中的一项艰巨的任务。只有几个RL实现可以达到目标奖励。

必要:| Python 3.6+ | 用于多处理Python Build-in库。 | Pytorch 1.6+ | PIP3未必安装火炬:| numpy 1.18+ | 用于重新开始缓冲。 numpy将与pytorch一起安装。| 健身房0.17.0 | 对于RL培训ENV。 健身房为DRL培训提供教程ENV。 (env.render()bug在健身房== 1.18 pyglet == 1.6。更改为健身房== 1.17.0,pyglet == 1.5)| pybullet 2.7+ | 对于RL培训ENV。 我们使用pybullet(免费)作为Mujoco(不是免费)的替代方案。| box2d-py 2.3.8 | 适合健身房。 使用pip安装box2d(而不是box2d-py)| matplotlib 3.2 | 对于情节。 评估代理Performance.pip3安装健身房== 1.17.0 pybullet box2d matplotlib