pytorch-A3C
这是来自“深度强化学习的异步方法”的异步优势演员评论家(A3C)的PyTorch实现。
此实现受Universe Starter Agent的启发。与初始代理程序相比,它使用具有共享统计信息的优化程序,如原始文档中所述。
如果您想在出版物中引用此存储库,请使用此bibtex:
@misc{pytorchaaac,
author = {Kostrikov, Ilya},
title = {PyTorch Implementations of Asynchronous Advantage Actor Critic},
year = {2018},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/ikostrikov/pytorch-a3c}},
}
A2C
我强烈建议检查同步版本和其他算法:pytorch-a2c-ppo-acktr。
根据我的经验,A2C比A3C更好,ACKTR比两者都好。而且,PPO是一种很好的连续控制算法。因此,我建议首先尝试A2C / PPO / ACKTR,并且只有在出于某些原因需要时才使用A3C。
另请阅读OpenAI博客以获取更多信息。
捐款
贡献非常受欢迎。如果您知道如何更好地使用此代码,请不要犹豫,发送拉取请求。
用法
# Works only wih Python 3.python3 main.py --env-name "PongDeterministic-v4" --num-processes 16
除了16个进程之外,此代码还在单独的线程中运行评估。
结果
通过16个进程,它可以在15分钟内收敛到PongDeterministic-v4。
对于BreakoutDeterministic-v4,它需要几个小时。