喜悦苗条

文章
5
资源
0
加入时间
3年0月21天

增强学习(强化学习)算例之Q-learning

我认为本文是学习率为1的Q-learning。为什么这么讲呢?根据Q-learning算法:更新一个状态行为对的Q价值时,采用的不是当前遵循策略的下一个状态行为对的Q价值,而是采用的待评估策略产生的下一个状态行为对的Q价值。公式如下:式中,红色部分的TD目标是基于另一个评估策略产生的行为得到的价值。Q学习最主要的表现形式是:个体遵循的策略是基于当前状态行为价值函数的一个策略,而目标策略是基于当前状...