系统学习深度学习(三十)--Deep Q-Learning1. 为何需要价值函数的近似表示2. 价值函数的近似表示方法3. Deep Q-Learning算法思路4. Deep Q-Learning实例5. Deep Q-Learning小结
转自:https://www.cnblogs.com/pinard/p/9714655.html1. 为何需要价值函数的近似表示 在之前讲到了强化学习求解方法,无论是动态规划DP,蒙特卡罗方法MC,还是时序差分TD,使用的状态都是离散的有限个状态集合S。此时问题的规模比较小,比较容易求解。但是假如我们遇到复杂的状态集合呢?甚至很多时候,状态是连续的,那么就算离散化后,集合也很大,此时...