强化学习入门(六):Q-learning系列算法3:连续动作(NAF)一、NAF算法
本文是在https://blog.csdn.net/acl_lihan/article/details/104076938的基础上进行了部分改动,加上了一点个人理解,原博客写的非常好,不妨一同查阅。普通的Q-learning比policy gradient比较容易实现,但是在处理连续动作(比如方向盘要转动多少度)的时候就会显得比较吃力。因为如果action是离散的几个动作,那就可以把这几个动作...