人工智能-强化学习-算法:Critic 【用于评价一个 Actor/Policy π】--> Q-Learning【用于训练出来一个最优 Actor/Policy π,擅长处理离散型 actions】一、Critic的作用二、Critic种类三、Q-Learning:从 Q π (
人工智能-强化学习-算法:Critic就是一个神经网络,以状态 $s$ 为输入,以期望的Reward为输出。- Critic的作用就是<font color='violet'>衡量一个Actor在某State状态下的优劣</font>。Given an actor π, it evaluates the how good the actor is。- Critic<font color='violet'>本身不能决定要采取哪一个Action</font&