强化学习算法Policy Gradient

2019-12-13 |

|

109 |

0

原标题：强化学习算法Policy Gradient

原文来自：博客园原文链接：https://www.cnblogs.com/swenwen/p/10722851.html

1 算法的优缺点

　1.1　优点

　　在DQN算法中，神经网络输出的是动作的q值，这对于一个agent拥有少数的离散的动作还是可以的。但是如果某个agent的动作是连续的，这无疑对DQN算法是一个巨大的挑战，为了解决这个问题，前辈们将基于值的方法改成了基于策略的方法，即输出动作的概率。

　1.2　缺点

　　策略梯度算法应用未来损失的return作为更新迭代的依据，即在一个回合过后，在这一回合中，若执行的某一动作的动作价值R大，则会加在下一回合选择这一动作的概率，反之，若执行的某一动作的动作价值R小，则会在下一回合选择这一动作的概率减小。因此，要想用return做为预测动作概率的神经网络更新的依据，就必须先拥有一个决策链，才能将return计算出来，因此每一个更新是在一个回合结束后才能更新一个。更新的速率比较慢

2 算法的流程

　2.1 算法的整体逻辑

　2.2　算法的更新逻辑

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：学习 google file system 心得体会

下一篇：机器学习之线性回归使用Python和tensorflow实现

用户评价

全部评价

热门资源

Python 爬虫（二）...

所谓爬虫就是模拟客户端发送网络请求，获取网络响...
TensorFlow从1到2...

原文第四篇中，我们介绍了官方的入门案例MNIST，功...
TensorFlow从1到2...

“回归”这个词，既是Regression算法的名称，也代表...
机器学习中的熵、...

熵 (entropy) 这一词最初来源于热力学。1948年，克...
TensorFlow2.0（10...

前面的博客中我们说过，在加载数据和预处理数据时...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com