概述
如何调整参数
深度强化学习之DQN编写与调试经验总结
神经网络的选取
这里着重强调一下,我们用神经网络的目的是为了拟合值函数(动作-状态值函数)。
那么我们应该使用什么样的网络呢?当你在网上搜索DQN代码时,主要有以下几个版本的复制:基于gym中倒立摆与过山车的DQN,用的为一个隐藏层的全连接;基于原始图像输入如Atari中的游戏,用的为深度卷积神经网络。因此,当你把DQN应用到具体的应用时
,首先考虑一下是不是真的需要使用深度卷积神经网络。当你的特征可以直接提取并可以根据得到的特征计算值函数时
,就不需要使用卷积神经网络,只有当你的Agent输入为原始图像,需要提取图像特征时再考虑使用卷积神经网络。
如果你要问神经元的数量以及层数,大致的思路是层数越深,每层神经元数据可以相应减少;层数越浅,每层神经元数量就稍微增多一点。
激活函数这里要注意一下,如果你的环境奖励为负值
,那么要注意:Relu可能会使你的神经元不激活,从而导致反向传播无法更新大量的参数。Relu的变种或者Sigmoid变种(tanh)等都可以考虑,但是sigmoid在一定区域也会出于无梯度状态。
————————————————
版权声明:本文为CSDN博主「MADong0」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/guijian6473/article/details/93859663
参数模型和非参数模型
添加链接描述
机器学习中的数据分布密度估计之采样法
添加链接描述
寻找数据集的分布参数或其后验概率的途径有两个,一是采样法,另一个是使用类似最大似然法的优化法,获得近似解
Survival_Analysis
最后
以上就是刻苦雪碧为你收集整理的强化学习如何调整参数的全部内容,希望文章能够帮你解决强化学习如何调整参数所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复