完美台灯

文章
7
资源
0
加入时间
2年10月17天

CS294(7) 基于值函数的方法(总结版)

PG算法与AC算法本质上都是寻找策略梯度,只是AC算法同时使用了某种值函数来试图给出策略梯度的更好估计。但是策略梯度算法通常有非常高的方差,因此希望能够抛开策略梯度这一架构。优势函数Aπ(st,at)=Qπ(st,at)−Vπ(st)A^{\pi}(s_t,a_t)=Q^{\pi}(s_t,a_t)-V^{\pi}(s_t)Aπ(st​,at​)=Qπ(st​,at​)−Vπ(st​),指的是给...