2023年03月归档_内向钢笔的博客_3DMAX教程,攻击防御,python编程,PHP编程,ColdFusion编程,小程序,q learning 参数,数字设计领域博主

内向钢笔

文章

资源

加入时间

4年6月12天

他的文章
他的资源

q learning 参数_强化学习 - q-learning

上一篇文章大致介绍了policy gradient的学习，这次大致说下q-learning. 主要材料还是来自于李宏毅的slides[1]. 1 Q-learning的介绍q-learning是通过value function来去决定后续的动作的。这个也是和pg的很大程度上的不同.因为它后边要选择的actor是根据当前最大的一个actor选取，但是最终也未必是选择这个actor，所以它本身是off...

q learning 参数 2023-03-08 213 点赞 3 评论 322 浏览

他的专栏

3DMAX教程（0）

攻击防御（0）

python编程（0）

PHP编程（0）

ColdFusion编程（1）

小程序（1）

q learning 参数（1）

数字设计（1）

他的归档

2023年03月（1）

内向钢笔

q learning 参数_强化学习 - q-learning

他的专栏

他的归档

热门文章