资源算法ChainerRL

ChainerRL

2019-08-19 | |  83 |   0 |   0

ChainerRL.png

ChainerRL

建立状态覆盖状态文档状态的PyPI

ChainerRL是一个深度强化学习库,使用灵活的深度学习框架Chainer在Python中实现各种最先进的深度强化算法

breakout.gifhumanoid.gif

安装

ChainerRL使用Python 2.7+和3.5.1+进行测试。有关其他要求,请参阅requirements.txt

ChainerRL可以通过PyPI安装:

pip install chainerrl

它也可以从源代码安装:

python setup.py install

有关安装的更多信息,请参阅安装。

入门

您可以先试用ChainerRL快速入门指南,或查看为Atari 2600和Open AI Gym准备好的示例

有关更多信息,请参阅ChainerRL的文档

算法

| 算法| 离散行动| 持续行动| 循环模型| CPU异步培训| |:---------- |:---------------:|:----------------:| :---------------:|:------------------:| | DQN(包括DoubleDQN等)| | (NAF)| | x | | 分类DQN | | x | | x | | DDPG | x | | | x | | A3C | | | | | | ACER | | | | | | NSQ(N步Q学习)| | (NAF)| | | | PCL(路径一致性学习)| | | | | | PPO | | | x | x | | TRPO | | | x | x |

以下算法已在ChainerRL中实施: -  A3C(异步优势演员 - 评论家) -  ACER(具有经验重播的演员 - 评论家) - 异步N步Q学习 - 分类DQN  -  DQN(包括双DQN,持久优势学习(PAL) ),双PAL,动态策略编程(DPP)) -  DDPG(深度确定性Poilcy梯度)(包括SVG(0)) -  PGT(政策梯度定理) -  PCL(路径一致性学习) -  PPO(近端策略优化) -  TRPO (信任区域政策优化)

基于Q函数的算法(如DQN)可以利用归一化优势函数(NAF)来解决连续作用问题以及类似DQN的离散输出网络。

环境

可以使用支持OpenAI Gym的接口(resetstep方法)子集的环境

特约

任何对ChainerRL的贡献都将受到高度赞赏!如果您有兴趣为ChainerRL做出贡献,请阅读CONTRIBUTING.md

执照

MIT许可证

上一篇:Show,Attend and Tell算法

下一篇:Rainbow

用户评价
全部评价

热门资源

  • Keras-ResNeXt

    Keras ResNeXt Implementation of ResNeXt models...

  • seetafaceJNI

    项目介绍 基于中科院seetaface2进行封装的JAVA...

  • spark-corenlp

    This package wraps Stanford CoreNLP annotators ...

  • capsnet-with-caps...

    CapsNet with capsule-wise convolution Project ...

  • inferno-boilerplate

    This is a very basic boilerplate example for pe...