q learning 参数_强化学习 - q-learning
上一篇文章大致介绍了policy gradient的学习,这次大致说下q-learning. 主要材料还是来自于李宏毅的slides[1]. 1 Q-learning的介绍q-learning是通过value function来去决定后续的动作的。这个也是和pg的很大程度上的不同.因为它后边要选择的actor是根据当前最大的一个actor选取,但是最终也未必是选择这个actor,所以它本身是off...