ChainerRL
ChainerRL是一个深度强化学习库,使用灵活的深度学习框架Chainer在Python中实现各种最先进的深度强化算法。
安装
ChainerRL使用Python 2.7+和3.5.1+进行测试。有关其他要求,请参阅requirements.txt。
ChainerRL可以通过PyPI安装:
pip install chainerrl
它也可以从源代码安装:
python setup.py install
有关安装的更多信息,请参阅安装。
入门
您可以先试用ChainerRL快速入门指南,或查看为Atari 2600和Open AI Gym准备好的示例。
有关更多信息,请参阅ChainerRL的文档。
算法
| 算法| 离散行动| 持续行动| 循环模型| CPU异步培训| |:---------- |:---------------:|:----------------:| :---------------:|:------------------:| | DQN(包括DoubleDQN等)| | (NAF)| | x | | 分类DQN | | x | | x | | DDPG | x | | | x | | A3C | | | | | | ACER | | | | | | NSQ(N步Q学习)| | (NAF)| | | | PCL(路径一致性学习)| | | | | | PPO | | | x | x | | TRPO | | | x | x |
以下算法已在ChainerRL中实施: - A3C(异步优势演员 - 评论家) - ACER(具有经验重播的演员 - 评论家) - 异步N步Q学习 - 分类DQN - DQN(包括双DQN,持久优势学习(PAL) ),双PAL,动态策略编程(DPP)) - DDPG(深度确定性Poilcy梯度)(包括SVG(0)) - PGT(政策梯度定理) - PCL(路径一致性学习) - PPO(近端策略优化) - TRPO (信任区域政策优化)
基于Q函数的算法(如DQN)可以利用归一化优势函数(NAF)来解决连续作用问题以及类似DQN的离散输出网络。
环境
可以使用支持OpenAI Gym的接口(reset
和step
方法)子集的环境。
特约
任何对ChainerRL的贡献都将受到高度赞赏!如果您有兴趣为ChainerRL做出贡献,请阅读CONTRIBUTING.md。
执照
MIT许可证。