前言:深度Q网络,又叫DQN 传统的强化学习中存储状态价值或者Q函数都是使用的表格(比如之前的Q表格),学名叫查找表(lookup table)。这个有什么问题吗?一个大问题就是只有离散情况(可穷尽)能够被存在于表格中。对于==连续的状态空间怎么办呢?==最气人的就是,现实中还总是连续的状态空间。这个时候就不能够用表格对价值函数进行存储。这时候需要价值函数近似来解决这个问题。 价值函数近似(value function approximation):为了在连续的状态和动作空间中计算Q函数
强化学习
2023-03-08
61 点赞
0 评论
92 浏览