DPG(确定策略梯度)基本网络结构:价值网络的训练:策略网络的训练: 随机策略和确定策略的区别:
基本网络结构:还是基于Actor-critic网络的一种结构,包含策略网络和价值网络。这里的策略网络为,但输出不再是概率分布,而是一个确定的实数或向量,输出的动作a是确定的,没有随机性,在机械臂的例子中,输出的是二维向量,因为机械臂有两个动作维度。这里的价值网络有两个输入,分别是状态s和动作a,输出的是一个实数,即对动作的评价。我们要做的就是训练这两个网络,让策略函数选取动作越来越好,让价值函数打分越来越准确。价值网络的训练:1.观测到一个四元组。2.根据观测到的t时刻的