Rainbow

2019-08-19 |

|

143 |

0 |

0

Rainbow

彩虹

彩虹：结合深层强化学习的改进[1]。包括分位数回归损失[2]：运行--quantile。

结果和预训练模型可以在发布中找到。

[x] DQN [3]
[x]双DQN [4]
[x]优先经验重播[5]
[x]决斗网络架构[6]
[x]多步退货[7]
[x]分布式RL [8]
[x]吵闹的网[9]

要求

使用Anaconda运行安装所有依赖项conda env create -f environment.yml并使用它source activate rainbow来激活环境。

致谢

参考

[1] [彩虹：结合深度强化学习的改进]（https://arxiv.org/abs/1710.02298）
[2] [分布式强化学习与分位数回归]（https://arxiv.org/abs/1710.10044）
[3] [与深度强化学习一起玩Atari]（http://arxiv.org/abs/1312.5602）
[4] [双重Q学习深度强化学习]（http://arxiv.org/abs/1509.06461）
[5] [优先经验重播]（http://arxiv.org/abs/1511.05952）
[6] [用于深度强化学习的决斗网络架构]（http://arxiv.org/abs/1511.06581)
[7] [强化学习：简介]（http://www.incompleteideas.net/sutton/book/ebook/the-book.html）
[8] [关于强化学习的分布式视角]（https://arxiv.org/abs/1707.06887）
[9] [用于探索的噪声网络]（https://arxiv.org/abs/1706.10295）

上一篇：ChainerRL

下一篇：FastPhotoStyle

用户评价

全部评价

还没有评论，说两句吧！

热门资源

Keras-ResNeXt

Keras ResNeXt Implementation of ResNeXt models...
seetafaceJNI

项目介绍基于中科院seetaface2进行封装的JAVA...
spark-corenlp

This package wraps Stanford CoreNLP annotators ...
capsnet-with-caps...

CapsNet with capsule-wise convolution Project ...
inferno-boilerplate

This is a very basic boilerplate example for pe...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com