我是靠谱客的博主 昏睡灯泡,最近开发中收集的这篇文章主要介绍RL笔记_Balance exploration and exploitation 几种简单方法,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
1,首先是pursuit方法,一直选择当前贪婪的action;
2,柯西-贪婪方法:以一定概率探索,随机选择非当前最优的action;
3,softmax :在以一定概率探索的基础上,根据当前的action_value estimates,利用Gibbs函数对剩余action做grade,对第二种方法随机选择非最优的一个改进;
4,interval estimation:以上方法是在action得到确定value的基础上,而此方法选择action是在对action的评估的置信区间上,比如value值为10~20,置信度95%。被选择的action的置信区间有最大的上边界,这就会鼓励探索不确定的action,并且最终有可能得到一个最优action。这样做的缺点是实际情况可能不满足统计学的一些假设,并且统计学的模型在实际中由于模型复杂度也很难被真正使用。
5,贝叶斯优化方法:假设我们已经知道问题的概率分布,我们可以计算每一个可能的reward的概率以及之后的action-values的后验概率分布。这样的模型在计算上非常复杂,概率树的数目非常庞大,即便只有两个action和两个reward,如果玩1000次,就会有2^1000的叶子,这里列出仅供讨论。
最后
以上就是昏睡灯泡为你收集整理的RL笔记_Balance exploration and exploitation 几种简单方法的全部内容,希望文章能够帮你解决RL笔记_Balance exploration and exploitation 几种简单方法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复