合适草莓

文章
4
资源
0
加入时间
3年1月16天

【强化学习】随机策略梯度算法(stochastic-policy-gradient)

策略搜索方法相对于值函数法有如下优缺点优点:直接策略搜索方法是对策略π\piπ进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。利用值函数方法求解最优策略时,策略改进需要求解argmaxaQθ(s,a)argmax_a Q_\theta(s,a)argmaxa​Qθ​(s,a),当要解决的问题动作空间很大或者动作为连续集时,该式无法有效求解。直接策...