我是靠谱客的博主 平常画板,最近开发中收集的这篇文章主要介绍【ML36】State-action value function 状态动作函数,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

在这里插入图片描述
当前状态为S,若折扣系数 γ = 0.25 γ=0.25 γ=0.25,那么请问应该向左走还是向右走?

假设向左走: R e t u r n 1 = 0 + 0 ∗ 0.25 + 100 ∗ 0.2 5 2 = 6.25 Return_1 = 0+0*0.25+100*0.25^2=6.25 Return1=0+00.25+1000.252=6.25
假设向右走: R e t u r n 2 = 0 + 0.25 ∗ 40 = 10 Return_2 = 0+0.25*40=10 Return2=0+0.2540=10

所以综合来看,还是向右走更为合适,所以根据上述算法,我们得到:

在这里插入图片描述
进而得到下图:
在这里插入图片描述
即若处于 State=2 时,应该选择向左走,当处于 State=3 时,应该选择向右走。


考虑一个更复杂的模型: γ = 0.25 γ=0.25 γ=0.25在这里插入图片描述
state-action value function Q ( s , a ) Q(s,a) Q(s,a)
说明的是当前处于s点,若向a方向行动一步,把行动后抵达的点作为当前点,计算整个过程作为价值 Return ( γ = 0.25 ) (γ=0.25) (γ=0.25)

e . g . e.g. e.g. 计算 Q ( 5 , ← ) = ? Q(5,←)=? Q(5,)=?
在这里插入图片描述
Q ( 5 , ← ) = 0 + 0 ∗ 0.25 + 0 ∗ 0.2 5 2 + 40 ∗ 0.2 5 3 = 0.625 Q(5,←)=0+0*0.25+0*0.25^2+40*0.25^3=0.625 Q(5,)=0+00.25+00.252+400.253=0.625


e . g . e.g. e.g. 计算 Q ( 3 , ← ) = ? Q(3,←)=? Q(3,)=?

在这里插入图片描述
Q ( 3 , ← ) = 0 + 0 ∗ 0.25 + 100 ∗ 0.2 5 2 = 6.25 Q(3,←)=0+0*0.25+100*0.25^2=6.25 Q(3,)=0+00.25+1000.252=6.25


e . g . e.g. e.g. 计算 Q ( 3 , → ) = ? Q(3,→)=? Q(3,)=?
在这里插入图片描述
Q ( 3 , → ) = 0 + 0 ∗ 0.25 + 0 ∗ 0.2 5 2 + 40 ∗ 0.2 5 3 = 0.625 Q(3,→)=0+0*0.25+0*0.25^2+40*0.25^3=0.625 Q(3,)=0+00.25+00.252+400.253=0.625


发现一个规律,若我们 Q ( s , a ) Q(s,a) Q(s,a) 中要求的执行一步的方向 a 与其构建的最大价值函数方向相同,那么其价值 Return 等于当前 最大价值函数的值


而若我们更改 折扣系数 γ = 0.25 γ=0.25 γ=0.25 会发生什么??

假设 γ = 0.25 γ=0.25 γ=0.25
在这里插入图片描述
更改 γ = 0.5 γ=0.5 γ=0.5
在这里插入图片描述
更改 γ = 0.8 γ=0.8 γ=0.8
在这里插入图片描述
由此说明,更改折扣系数会对 价值Return 有很大的影响

最后

以上就是平常画板为你收集整理的【ML36】State-action value function 状态动作函数的全部内容,希望文章能够帮你解决【ML36】State-action value function 状态动作函数所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(38)

评论列表共有 0 条评论

立即
投稿
返回
顶部