强健机器猫

文章
12
资源
1
加入时间
3年0月20天

Q-Learning参数更新部分详解

Q-Learning小结近期学习了一下Q-Learning相关的内容,重点总结一下学习的难点,即Q-Learing的更新部分。如莫烦大神的图解,在我们学习的状态下,有两种可行的动作,actionList如下:a1继续学习a2去看电视相应的在当前状态下,如果采取对某一动作,那么会对我们产生一定的影响,即受到惩罚还是奖励。我们设当前状态,即我们在学习的状态S1下,执行相应的action的奖惩情况:a1a2S1-21此表表示在S1状态下,如果采