Q learning参数的补充说明

354 阅读 0 评论 234 点赞

我是靠谱客的博主碧蓝汽车，这篇文章主要介绍Q learning参数的补充说明，现在分享给大家，希望可以做个参考。

1、epsilon greedy 算法

Q: 如何理解 greed-epsilon 方法／如何设置 epsilon／如何理解 exploration & exploitation 权衡？
A: (1) 我们的小车一开始接触到的 state 很少，并且如果小车按照已经学到的 qtable 执行，那么小车很有可能出错或者绕圈圈。同时我们希望小车一开始能随机的走一走，接触到更多的 state。(2) 基于上述原因，我们希望小车在一开始的时候不完全按照 Q learning 的结果运行，即以一定的概率 epsilon，随机选择 action，而不是根据 maxQ 来选择 action。然后随着不断的学习，那么我会降低这个随机的概率，使用一个衰减函数来降低 epsilon。(3) 这个就解决了所谓的 exploration and exploitation 的问题，在“探索”和“执行”之间寻找一个权衡。

2、alpha 的解释

alpha 是一个权衡上一次学到结果和这一次学习结果的量，如：Q = (1-alpha)*Q_old + alpha*Q_current。
alpha 设置过低会导致机器人只在乎之前的知识，而不能积累新的 reward。一般取 0.5 来均衡以前知识及新的 reward。

3、gamma

gamma 是考虑未来奖励的因子，是一个(0,1)之间的值。一般我们取0.9，能够充分地对外来奖励进行考虑。
实际上如果你将它调小了，你会发现终点处的正奖励不能够“扩散”到周围，也就是说，机器人很有可能无法学习到一个到达终点的策略。你可以自己尝试一下。

最后

以上就是碧蓝汽车最近收集整理的关于Q learning参数的补充说明的全部内容，更多相关Q内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(234)

本文分类：Other
浏览次数：354 次浏览
发布日期：2023-03-08 11:58:01

相关文章

q learning 参数_强化学习 - q-learning

q learning 参数_强化学习 - q-learning

强化学习-Q-Learning算法一、Q-Learning的更新Q值的公式二、Q-Learning的存储Q值的Q-Table三、Q-Learning的更新Q值的算法流程四、Q-Learning的工程化的执行流程

强化学习-Q-Learning算法一、Q-Learning的更新Q值的公式二、Q-Learning的存储Q值的Q-Table三、Q-Learning的更新Q值的算法流程四、Q-Learning的工程化的执行流程

win驱动kmdf和umdf区别

win驱动kmdf和umdf区别

强化学习之Q-learning简介强化学习Q-learningDeep-Q-learning参考资料

强化学习之Q-learning简介强化学习Q-learningDeep-Q-learning参考资料

Q learning参数的补充说明

Q learning参数的补充说明

WDF驱动中KMDF与UMDF区别

WDF驱动中KMDF与UMDF区别

强化学习可以用来调参？人工智能炼丹师《Using Deep Q-Learning to Control Optimization Hyperparameters》论文解读

强化学习可以用来调参？人工智能炼丹师《Using Deep Q-Learning to Control Optimization Hyperparameters》论文解读

【强化学习】Q-Learning算法详解

【强化学习】Q-Learning算法详解

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部