Q-Learning中的Q值为何会被过估计?(即Double-DQN解决了什么问题)
由图(1),在马尔科夫决策过程中:由公式(1)和公式(2),可以简写成v(s) = E[q(s, a)],q(s, a) = E[r + v(s’)],合并得到v(s) = E[r + v(s’)]和q(s, a) = E[r + E[q(s’, a’)]],即q值的更新是根据下个状态q值的均值来更新的,并不是通过下个状态最大的q值来更新的。再来看Q-Learning更新Q值的公式:对于一个3x3大小的地图,Q表格的维度是9x4,即9个状态,每个状态又有4个Q值,共36个Q值。Q-Lear.