2023年09月归档_微笑纸飞机的博客_python编程,Oracle,PHP编程,JavaScript,电脑硬件,leetcode,强化学习,Bitmap领域博主

微笑纸飞机

文章

资源

加入时间

4年6月2天

Q-Learning中的Q值为何会被过估计？（即Double-DQN解决了什么问题）

由图（1），在马尔科夫决策过程中：由公式（1）和公式（2），可以简写成v(s) = E[q(s, a)]，q(s, a) = E[r + v(s’)]，合并得到v(s) = E[r + v(s’)]和q(s, a) = E[r + E[q(s’, a’)]]，即q值的更新是根据下个状态q值的均值来更新的，并不是通过下个状态最大的q值来更新的。再来看Q-Learning更新Q值的公式：对于一个3x3大小的地图，Q表格的维度是9x4，即9个状态，每个状态又有4个Q值，共36个Q值。Q-Lear.

强化学习 2023-09-12 264 点赞 4 评论 400 浏览

他的专栏

python编程（0）

Oracle（0）

PHP编程（1）

JavaScript（2）

电脑硬件（1）

leetcode（1）

强化学习（1）

Bitmap（1）

他的归档

2023年09月（1）

热门文章

JQuery Highcharts 动态生成图表的方法

jquery $.ajax相关用法分享

华为手环B2开箱图赏采用无边框触控屏/防水防尘

php实现与python进行socket通信的方法示例

leetcode【第一周】:单链表表示的两个数字相加

Q-Learning中的Q值为何会被过估计？（即Double-DQN解决了什么问题）

测试Bitmap和Marshal.Copy