概述
文章目录
- 前言
- ε-贪心算法
- 总结
前言
初学者对于贪心算法总是会模棱两可,不懂ε具体代表含义,以至于写代码的时候弄淆概念,特此记录下正确算法概念
ε-贪心算法
ε-贪心的意思是说,我们有 1 − ε 的概率会按照 Q 函数来决定动作,通常 ε 就设一个很小的值,1 − ε
可能是 90%,也就是 90% 的概率会按照 Q 函数来决定动作,但是你有 10% 的机率是随机的。通常在实现上 ε 会随着时间递减。在最开始的时候。因为还不知道哪个动作是比较好的,所以你会花比较大的力气在做探索。接下来随着训练的次数越来越多。已经比较确定说哪一个 Q 是比较好的。你就会减少你的探索,你会把 ε 的值变小,主要根据 Q 函数来决定你的动作,比较少随机决定动作,这是 ε-贪心。
总结
利用:1 − ε 90%
探索:ε 10%
通常 ε 就设一个很小的值,且 ε 会随着时间递减,即探索越来越小
最后
以上就是饱满小虾米为你收集整理的【RL】ε-贪心算法的全部内容,希望文章能够帮你解决【RL】ε-贪心算法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复