强化学习如何调整参数
如何调整参数深度强化学习之DQN编写与调试经验总结神经网络的选取这里着重强调一下,我们用神经网络的目的是为了拟合值函数(动作-状态值函数)。那么我们应该使用什么样的网络呢?当你在网上搜索DQN代码时,主要有以下几个版本的复制:基于gym中倒立摆与过山车的DQN,用的为一个隐藏层的全连接;基于原始图像输入如Atari中的游戏,用的为深度卷积神经网络。因此,当你把DQN应用到具体的应用时,首先考虑一下是不是真的需要使用深度卷积神经网络。当你的特征可以直接提取并可以根据得到的特征计算值函数时,就不需要