【强化学习】Actor-Critic公式推导分析
注:actor以及critic可以分别看作是policy以及value function的同义词。 Actor-Critic算法是目前一个非常流行常用的强化学习算法,广泛应用于机器人,能源,经济等领域。通过low-variance(低方差)以及policy gradient(策略梯度)在线搜索最优策略,可以处理连续的state(状态)以及连续的action(行为)。 强化学习的方法可以分为以下三