彩虹
彩虹:结合深层强化学习的改进[1]。包括分位数回归损失[2]:运行--quantile
。
结果和预训练模型可以在发布中找到。
要求
使用Anaconda运行安装所有依赖项conda env create -f environment.yml
并使用它source activate rainbow
来激活环境。
致谢
参考
[1] [彩虹:结合深度强化学习的改进](https://arxiv.org/abs/1710.02298)
[2] [分布式强化学习与分位数回归](https://arxiv.org/abs/1710.10044)
[3] [与深度强化学习一起玩Atari](http://arxiv.org/abs/1312.5602)
[4] [双重Q学习深度强化学习](http://arxiv.org/abs/1509.06461)
[5] [优先经验重播](http://arxiv.org/abs/1511.05952)
[6] [用于深度强化学习的决斗网络架构](http://arxiv.org/abs/1511.06581)
[7] [强化学习:简介](http://www.incompleteideas.net/sutton/book/ebook/the-book.html)
[8] [关于强化学习的分布式视角](https://arxiv.org/abs/1707.06887)
[9] [用于探索的噪声网络](https://arxiv.org/abs/1706.10295)