连续动作空间1 A2C方法2 确定性策略梯度3 分布的策略梯度(D4PG)
1 A2C方法A2C方法的状态价值输出端针对连续动作保持不变。唯一受影响的是策略的表示形式。2 确定性策略梯度论文:Deterministic Policy Gradient AlgorithmsDDPG 在深度 Q 网络基础上加了一个策略网络来直接输出动作值,所以 DDPG 需要一边学习 Q 网络,一边学习策略网络。Q 网络的参数用 w 来表示。策略网络的参数用 θ 来表示。我们称这样的结构为演员-评论员的结构.3 分布的策略梯度(D4PG)论文:Distributed Distribut