ChainerRL

2019-08-19 |

|

83 |

0 |

0

ChainerRL

ChainerRL

ChainerRL是一个深度强化学习库，使用灵活的深度学习框架Chainer在Python中实现各种最先进的深度强化算法。

安装

ChainerRL使用Python 2.7+和3.5.1+进行测试。有关其他要求，请参阅requirements.txt。

ChainerRL可以通过PyPI安装：

pip install chainerrl

它也可以从源代码安装：

python setup.py install

有关安装的更多信息，请参阅安装。

入门

您可以先试用ChainerRL快速入门指南，或查看为Atari 2600和Open AI Gym准备好的示例。

有关更多信息，请参阅ChainerRL的文档。

算法

| 算法| 离散行动| 持续行动| 循环模型| CPU异步培训| |：---------- |：---------------：|：----------------：| ：---------------：|：------------------：| | DQN（包括DoubleDQN等）| | （NAF）| | x | | 分类DQN | | x | | x | | DDPG | x | | | x | | A3C | | | | | | ACER | | | | | | NSQ（N步Q学习）| | （NAF）| | | | PCL（路径一致性学习）| | | | | | PPO | | | x | x | | TRPO | | | x | x |

以下算法已在ChainerRL中实施： - A3C（异步优势演员 - 评论家） - ACER（具有经验重播的演员 - 评论家） - 异步N步Q学习 - 分类DQN - DQN（包括双DQN，持久优势学习（PAL）），双PAL，动态策略编程（DPP）） - DDPG（深度确定性Poilcy梯度）（包括SVG（0）） - PGT（政策梯度定理） - PCL（路径一致性学习） - PPO（近端策略优化） - TRPO （信任区域政策优化）

基于Q函数的算法（如DQN）可以利用归一化优势函数（NAF）来解决连续作用问题以及类似DQN的离散输出网络。

环境

可以使用支持OpenAI Gym的接口（reset和step方法）子集的环境。

特约

任何对ChainerRL的贡献都将受到高度赞赏！如果您有兴趣为ChainerRL做出贡献，请阅读CONTRIBUTING.md。

执照

MIT许可证。

上一篇：Show，Attend and Tell算法

下一篇：Rainbow

用户评价

全部评价

还没有评论，说两句吧！

热门资源

Keras-ResNeXt

Keras ResNeXt Implementation of ResNeXt models...
seetafaceJNI

项目介绍基于中科院seetaface2进行封装的JAVA...
spark-corenlp

This package wraps Stanford CoreNLP annotators ...
capsnet-with-caps...

CapsNet with capsule-wise convolution Project ...
inferno-boilerplate

This is a very basic boilerplate example for pe...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com