强化学习——探索与利用基本方法

395 阅读 0 评论 261 点赞

我是靠谱客的博主迅速小丸子，这篇文章主要介绍强化学习——探索与利用基本方法，现在分享给大家，希望可以做个参考。

探索和利用的困局（exploration exploitation dilemma）：

利用是做出当前信息下的最佳决定，
探索则是尝试不同的行为继而收集更多的信息。最好的长期战略通常包含一些牺牲短期利益举措。通过搜集更多或者说足够多的信息使得个体能够达到宏观上的最佳策略。

几个基本的策略

朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索；
乐观初始估计(Optimistic Initialization): 优先选择当前被认为是最高价值的行为，除非新信息的获取推翻了该行为具有最高价值这一认知；
概率匹配（Probability Matching): 根据当前估计的概率分布采样行为；
信息状态搜索(Information State Search): 将已探索的信息作为状态的一部分联合个体的状态组成新的状态，以新状态为基础进行前向探索。

原文链接：https://blog.csdn.net/dukuku5038/article/details/84782354

最后

以上就是迅速小丸子最近收集整理的关于强化学习——探索与利用基本方法的全部内容，更多相关强化学习——探索与利用基本方法内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(261)

本文分类：强化学习
浏览次数：395 次浏览
发布日期：2024-09-18 12:00:02

相关文章

如何用统计学指导自己的生活？

如何理解UCB-Upper Confidence Bound

如何理解UCB-Upper Confidence Bound

强化学习之探索与利用一、概念二、策略探索的原则三、多臂老虎机四、Regret 函数五、讨论

强化学习之探索与利用一、概念二、策略探索的原则三、多臂老虎机四、Regret 函数五、讨论

Upper-Confidence-Bound(UCB) Action Selection

Upper-Confidence-Bound(UCB) Action Selection

强化学习——探索与利用基本方法

强化学习——探索与利用基本方法

强化学习_03_利用与探索一、利用与探索二、利用与探索的简单试验

强化学习_03_利用与探索一、利用与探索二、利用与探索的简单试验

强化学习怎样在探索和利用之间找到平衡？OpenAI 推出了大型多智能体游戏环境 Neural MMO...

强化学习怎样在探索和利用之间找到平衡？OpenAI 推出了大型多智能体游戏环境 Neural MMO...

$强化学习之探索与利用(二)衰减的 ϵ \epsilon ϵ-贪婪探索不确定行为优先探索基于信息价值的探索$

强化学习之探索与利用(二)衰减的 ϵ \epsilon ϵ-贪婪探索不确定行为优先探索基于信息价值的探索

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部