我是靠谱客的博主 饱满小虾米,最近开发中收集的这篇文章主要介绍【RL】ε-贪心算法,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录

    • 前言
    • ε-贪心算法
    • 总结

前言

初学者对于贪心算法总是会模棱两可,不懂ε具体代表含义,以至于写代码的时候弄淆概念,特此记录下正确算法概念

ε-贪心算法

ε-贪心的意思是说,我们有 1 − ε 的概率会按照 Q 函数来决定动作,通常 ε 就设一个很小的值,1 − ε
可能是 90%,也就是 90% 的概率会按照 Q 函数来决定动作,但是你有 10% 的机率是随机的。通常在实现上 ε 会随着时间递减。在最开始的时候。因为还不知道哪个动作是比较好的,所以你会花比较大的力气在做探索。接下来随着训练的次数越来越多。已经比较确定说哪一个 Q 是比较好的。你就会减少你的探索,你会把 ε 的值变小,主要根据 Q 函数来决定你的动作,比较少随机决定动作,这是 ε-贪心。

总结

利用:1 − ε 90%
探索:ε 10%
通常 ε 就设一个很小的值,且 ε 会随着时间递减,即探索越来越小

最后

以上就是饱满小虾米为你收集整理的【RL】ε-贪心算法的全部内容,希望文章能够帮你解决【RL】ε-贪心算法所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(56)

评论列表共有 0 条评论

立即
投稿
返回
顶部