pytorch-A3C

这是来自“深度强化学习的异步方法”的异步优势演员评论家（A3C）的PyTorch实现。

此实现受Universe Starter Agent的启发。与初始代理程序相比，它使用具有共享统计信息的优化程序，如原始文档中所述。

如果您想在出版物中引用此存储库，请使用此bibtex：

@misc{pytorchaaac,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Asynchronous Advantage Actor Critic},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a3c}},
}

A2C

我强烈建议检查同步版本和其他算法：pytorch-a2c-ppo-acktr。

根据我的经验，A2C比A3C更好，ACKTR比两者都好。而且，PPO是一种很好的连续控制算法。因此，我建议首先尝试A2C / PPO / ACKTR，并且只有在出于某些原因需要时才使用A3C。

另请阅读OpenAI博客以获取更多信息。

捐款

贡献非常受欢迎。如果您知道如何更好地使用此代码，请不要犹豫，发送拉取请求。

用法

# Works only wih Python 3.python3 main.py --env-name "PongDeterministic-v4" --num-processes 16

除了16个进程之外，此代码还在单独的线程中运行评估。

结果

通过16个进程，它可以在15分钟内收敛到PongDeterministic-v4。

对于BreakoutDeterministic-v4，它需要几个小时。

上一篇：async-RL

下一篇：Faster R-CNN

用户评价

全部评价

还没有评论，说两句吧！

热门资源

Keras-ResNeXt

Keras ResNeXt Implementation of ResNeXt models...
seetafaceJNI

项目介绍基于中科院seetaface2进行封装的JAVA...
spark-corenlp

This package wraps Stanford CoreNLP annotators ...
capsnet-with-caps...

CapsNet with capsule-wise convolution Project ...
inferno-boilerplate

This is a very basic boilerplate example for pe...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com