傲娇咖啡豆

文章
4
资源
0
加入时间
2年10月24天

(六)深度Q网络

  前言:深度Q网络,又叫DQN  传统的强化学习中存储状态价值或者Q函数都是使用的表格(比如之前的Q表格),学名叫查找表(lookup table)。这个有什么问题吗?一个大问题就是只有离散情况(可穷尽)能够被存在于表格中。对于==连续的状态空间怎么办呢?==最气人的就是,现实中还总是连续的状态空间。这个时候就不能够用表格对价值函数进行存储。这时候需要价值函数近似来解决这个问题。  价值函数近似(value function approximation):为了在连续的状态和动作空间中计算Q函数