儒雅月亮

文章
4
资源
0
加入时间
3年1月13天

DRL之:策略梯度方法 (Policy Gradient Methods)

  DRL 教材 Chpater 11 --- 策略梯度方法(Policy Gradient Methods)  前面介绍了很多关于 state or state-action pairs 方面的知识,为了将其用于控制,我们学习 state-action pairs 的值,并且将这些值函数直接用于执行策略和选择动作.这种形式的方法称为:action-value method...