2023年03月归档_喜悦苗条的博客_Windows 7,3DMAX教程,JavaScript,人工智能,linux学习之路,思维题,linux,TensorFlow领域博主

喜悦苗条

文章

5

资源

0

加入时间

4年5月18天

增强学习（强化学习）算例之Q-learning

我认为本文是学习率为1的Q-learning。为什么这么讲呢？根据Q-learning算法：更新一个状态行为对的Q价值时，采用的不是当前遵循策略的下一个状态行为对的Q价值，而是采用的待评估策略产生的下一个状态行为对的Q价值。公式如下：式中，红色部分的TD目标是基于另一个评估策略产生的行为得到的价值。Q学习最主要的表现形式是：个体遵循的策略是基于当前状态行为价值函数的一个策略，而目标策略是基于当前状...

人工智能 2023-03-08 196 点赞 2 评论 296 浏览

他的专栏

Windows 7（0）

3DMAX教程（0）

JavaScript（0）

人工智能（1）

linux学习之路（1）

思维题（1）

linux（1）

TensorFlow（1）

他的归档

2023年03月（1）

喜悦苗条

增强学习（强化学习）算例之Q-learning

他的专栏

他的归档

热门文章