【ML36】State-action value function 状态动作函数
说明的是当前处于s点,若向a方向行动一步,把行动后抵达的点作为当前点,计算整个过程作为价值。即若处于 State=2 时,应该选择向左走,当处于 State=3 时,应该选择向右走。中要求的执行一步的方向 a 与其构建的最大价值函数方向相同,那么其价值。,那么请问应该向左走还是向右走?当前状态为S,若折扣系数。而若我们更改 折扣系数。发现一个规律,若我们。