强化学习实例11:策略梯度法(Policy Gradient)
本实例基于策略梯度的算法来学习“打乒乓球”游戏首先本实例的定义马尔可夫决策过程:状态s:每一时刻的游戏画面 行动a:右边绿色拍,向上或向下 策略:状态为s下,采取行动a的概率强化学习的目标是最大化长期回报期望:其中为策略参数定义目标函数J策略梯度为用Q代替r使用蒙特卡罗法求解使用蒙特卡罗法,方差大。为了模型的稳定,提出Actor-Criti...