我是靠谱客的博主 苗条故事,最近开发中收集的这篇文章主要介绍Q学习——动作选择,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

在Q-Learning中采用的动作选择方法一般为贪婪策略,其原理为以一定的概率在随机选择与当前最大值中选择策略来决定需采取的动作,具体代码如下。 

% 贪婪策略选取动作
function action_t=act_rand_select(EPSILON,state, Q, action )
% 读可选行为的个数
    if (rand > EPSILON) %若大于ε,则随机选择一个动作
        action_t = action(randsrc(1,1,randperm(3)));
    else %否则,选择值最大的动作
        index = max(Q(state,:));
        action_t=action(Q(state,:)==index);
        [~,w]=size(action_t);
        if w>1%若有多个可选动作,则随机选择一个
            action_t=action_t(randi(w));
        end
    end
end

最后

以上就是苗条故事为你收集整理的Q学习——动作选择的全部内容,希望文章能够帮你解决Q学习——动作选择所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(34)

评论列表共有 0 条评论

立即
投稿
返回
顶部