(十三)从零开始学人工智能-强化学习:值函数近似和策略梯度强化学习–值函数近似和策略梯度声明参考资料
强化学习文章目录强化学习1. 值函数近似1.1 线性函数近似1.1.1 状态价值函数近似1.1.2 动作价值函数近似1.2 深度神经网络近似2. 策略梯度声明参考资料前两节内容都是强化学习的一些基础理论 ,只能解决一些中小规模的问题,实际情况下很多价值函数需要一张大表来存储,获取某一状态或动作价值的时候通常需要一个查表操作,这对于某些状态或动作空间很大的问题几乎无法求解,而许多实际问题拥有大量...