基础算法篇(七),确定性策略的DPG与DDPG确定性策略梯度DPG深度确定性策略梯度DDPG总结
我们在前面两章介绍了Policy Based范畴的经典策略梯度方法和基于AC框架的PPO方法,在上述方法中,策略梯度都为如下形式:∇J(θ)=Eτ∼P(τ;θ)[R(τ)∑t=1T∇logπθ(at∣st)]\nabla J\left(\theta\right)=E_{\tau\sim P\left(\tau;\theta\right)}\left[R\left(\tau\right)\sum_{t=1}^T\nabla\log\pi_\theta\left(a_t\left|s_t\righ