PPO

登录免费注册

论文
算法
数据集
经验分享
技术动态
行业动态

论文
学习
研究领域

算法
学习
研究领域

数据集
自动驾驶
图片

经验分享
学习
研究领域

技术动态
计算机视觉
自然语言处理

行业动态
教育
语音识别

》资源》算法》PPO

PPO

2019-09-20 |

|

35 |

0 |

0

0

PPO

Add entropy term to encourage exploration
GAE
Distributional
Other environments
Bigger -> SLower nets
The exploration noise causes NAN gradients, thus NAN outputs
Need experience replay because it's OBVIOUSLY forgetting stuff from the past.
Use OpenAI examples
Combine 2 nets into one -> Works -> Learns a bit slower I think
Tuned hyper-parameters, specifically the size of roll-outs, number of updates and batch size
Next step -> Try GAE estimation
After -> Train in distributed setting with harder environments
Compare to OpenAI baseline
Incorporate into StarCraft

上一篇：geometric-matching

下一篇：chainer-fluid

用户评价

登录
注册

全部评价

还没有评论，说两句吧！

热门资源

Keras-ResNeXt

Keras ResNeXt Implementation of ResNeXt models...
seetafaceJNI

项目介绍基于中科院seetaface2进行封装的JAVA...
spark-corenlp

This package wraps Stanford CoreNLP annotators ...
capsnet-with-caps...

CapsNet with capsule-wise convolution Project ...
inferno-boilerplate

This is a very basic boilerplate example for pe...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com

关于我们
智享云简介联系我们隐私声明
服务与支持
使用帮助联系我们
快速链接
启迪智享官网
咨询电话：010-82353090

工作日早9:00-晚6:00

© 2009-2019 tusaishared.com.cn 版权所有京ICP备19018324号