资源算法深度强化学习的异步方法集

深度强化学习的异步方法集

2019-08-19 | |  86 |   0 |   0

pytorch-A3C

这是来自“深度强化学习的异步方法”的异步优势演员评论家(A3C)的PyTorch实现

此实现受Universe Starter Agent的启发与初始代理程序相比,它使用具有共享统计信息的优化程序,如原始文档中所述。

如果您想在出版物中引用此存储库,请使用此bibtex:

@misc{pytorchaaac,
  author = {Kostrikov, Ilya},
  title = {PyTorch Implementations of Asynchronous Advantage Actor Critic},
  year = {2018},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/ikostrikov/pytorch-a3c}},
}

A2C

强烈建议检查同步版本和其他算法:pytorch-a2c-ppo-acktr

根据我的经验,A2C比A3C更好,ACKTR比两者都好。而且,PPO是一种很好的连续控制算法。因此,我建议首先尝试A2C / PPO / ACKTR,并且只有在出于某些原因需要时才使用A3C。

另请阅读OpenAI博客以获取更多信息。

捐款

贡献非常受欢迎。如果您知道如何更好地使用此代码,请不要犹豫,发送拉取请求。

用法

# Works only wih Python 3.python3 main.py --env-name "PongDeterministic-v4" --num-processes 16

除了16个进程之外,此代码还在单独的线程中运行评估。

结果

通过16个进程,它可以在15分钟内收敛到PongDeterministic-v4。 PongDeterministic-V4

对于BreakoutDeterministic-v4,它需要几个小时。


上一篇:async-RL

下一篇:Faster R-CNN

用户评价
全部评价

热门资源

  • Keras-ResNeXt

    Keras ResNeXt Implementation of ResNeXt models...

  • seetafaceJNI

    项目介绍 基于中科院seetaface2进行封装的JAVA...

  • spark-corenlp

    This package wraps Stanford CoreNLP annotators ...

  • capsnet-with-caps...

    CapsNet with capsule-wise convolution Project ...

  • inferno-boilerplate

    This is a very basic boilerplate example for pe...