概述
当前状态为S,若折扣系数
γ
=
0.25
γ=0.25
γ=0.25,那么请问应该向左走还是向右走?
假设向左走:
R
e
t
u
r
n
1
=
0
+
0
∗
0.25
+
100
∗
0.2
5
2
=
6.25
Return_1 = 0+0*0.25+100*0.25^2=6.25
Return1=0+0∗0.25+100∗0.252=6.25
假设向右走:
R
e
t
u
r
n
2
=
0
+
0.25
∗
40
=
10
Return_2 = 0+0.25*40=10
Return2=0+0.25∗40=10
所以综合来看,还是向右走更为合适,所以根据上述算法,我们得到:
进而得到下图:
即若处于 State=2 时,应该选择向左走,当处于 State=3 时,应该选择向右走。
考虑一个更复杂的模型:
γ
=
0.25
γ=0.25
γ=0.25
state-action value function
Q
(
s
,
a
)
Q(s,a)
Q(s,a):
说明的是当前处于s点,若向a方向行动一步,把行动后抵达的点作为当前点,计算整个过程作为价值 Return。
(
γ
=
0.25
)
(γ=0.25)
(γ=0.25)
e
.
g
.
e.g.
e.g. 计算
Q
(
5
,
←
)
=
?
Q(5,←)=?
Q(5,←)=?
Q
(
5
,
←
)
=
0
+
0
∗
0.25
+
0
∗
0.2
5
2
+
40
∗
0.2
5
3
=
0.625
Q(5,←)=0+0*0.25+0*0.25^2+40*0.25^3=0.625
Q(5,←)=0+0∗0.25+0∗0.252+40∗0.253=0.625
e . g . e.g. e.g. 计算 Q ( 3 , ← ) = ? Q(3,←)=? Q(3,←)=?
Q
(
3
,
←
)
=
0
+
0
∗
0.25
+
100
∗
0.2
5
2
=
6.25
Q(3,←)=0+0*0.25+100*0.25^2=6.25
Q(3,←)=0+0∗0.25+100∗0.252=6.25
e
.
g
.
e.g.
e.g. 计算
Q
(
3
,
→
)
=
?
Q(3,→)=?
Q(3,→)=?
Q
(
3
,
→
)
=
0
+
0
∗
0.25
+
0
∗
0.2
5
2
+
40
∗
0.2
5
3
=
0.625
Q(3,→)=0+0*0.25+0*0.25^2+40*0.25^3=0.625
Q(3,→)=0+0∗0.25+0∗0.252+40∗0.253=0.625
发现一个规律,若我们 Q ( s , a ) Q(s,a) Q(s,a) 中要求的执行一步的方向 a 与其构建的最大价值函数方向相同,那么其价值 Return 等于当前 最大价值函数的值。
而若我们更改 折扣系数 γ = 0.25 γ=0.25 γ=0.25 会发生什么??
假设
γ
=
0.25
γ=0.25
γ=0.25
更改
γ
=
0.5
γ=0.5
γ=0.5
更改
γ
=
0.8
γ=0.8
γ=0.8
由此说明,更改折扣系数会对 价值Return 有很大的影响
最后
以上就是平常画板为你收集整理的【ML36】State-action value function 状态动作函数的全部内容,希望文章能够帮你解决【ML36】State-action value function 状态动作函数所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复