【RL】ε-贪心算法

275 阅读 0 评论 182 点赞

我是靠谱客的博主饱满小虾米，这篇文章主要介绍【RL】ε-贪心算法，现在分享给大家，希望可以做个参考。

文章目录

- 前言
- ε-贪心算法
- 总结

前言

初学者对于贪心算法总是会模棱两可，不懂ε具体代表含义，以至于写代码的时候弄淆概念，特此记录下正确算法概念

ε-贪心算法

ε-贪心的意思是说，我们有 1 − ε 的概率会按照 Q 函数来决定动作，通常 ε 就设一个很小的值，1 − ε
可能是 90%，也就是 90% 的概率会按照 Q 函数来决定动作，但是你有 10% 的机率是随机的。通常在实现上 ε 会随着时间递减。在最开始的时候。因为还不知道哪个动作是比较好的，所以你会花比较大的力气在做探索。接下来随着训练的次数越来越多。已经比较确定说哪一个 Q 是比较好的。你就会减少你的探索，你会把 ε 的值变小，主要根据 Q 函数来决定你的动作，比较少随机决定动作，这是 ε-贪心。