强化学习之确定性策略网络和随机策略网络1 确定性策略2 随机策略2.1 分类策略2.2 对角高斯策略
强化学习当中策略可以分为随机策略和确定性策略两类。1 确定性策略确定性策略是输入一个状态s,策略会给出一个确定的动作a,可以用以下形式表示。u表示的是确定性策略。t时刻的状态写作st。t时刻在st状态下采取的动作为at。实现时,只需要建立一个神经网络,输入状态,输出一个确定的动作就行。使用了确定性策略的算法有:DDPG、TD3。DQN中的目标策略一般也是贪婪的确定性策略。2 随机策略随机策略是输入一个状态s,输出的是动作分布。随机策略通常用π表示。对于st条件下,每一个动作都是以概率被选取