《深度强化学习实践》Actor-Critic算法小结应用
最近想拿出一些时间,把《深度强化学习时间》好好过一遍,这一节总结的是AC和A3C的内容。Actor-Critic方差策略梯度算法目标:通过训练,增加好动作的概率,减小不好动作被采集到的概率。实现:▽J≈E[Q(s,a)▽logπ(a∣s)]{\triangledown }J\approx E[Q(s,a){\triangledown }\log \pi (a|s)]▽J≈E[Q(s,a)▽logπ(a∣s)]缺点:不稳定,收敛速度慢的缺点(因此actor-critic算法致力于解决这两个问.