强化学习笔记:连续控制 & 确定策略梯度DPG1 离散控制与连续控制 2 确定策略梯度 3 算法推导4 整体训练流程
1 离散控制与连续控制 之前的无论是DQN,Q-learning,A2C,REINFORCEMENT,SARSA什么的,都是针对离散动作空间,不能直接解决连续控制问题。考虑这样一个问题:我们需要控制一只机械手臂,完成某些任务,获取奖励。机械 手臂有两个关节,分别可以在 [0◦, 360◦] 与 [0◦, 180◦] 的范围内转动。这个问题的自由度 是 d = 2,动作是二维向量,动作空间是连续集合 A = [0, 360] × [0, 1...