Q学习——动作选择

57 阅读 0 评论 38 点赞

我是靠谱客的博主苗条故事，最近开发中收集的这篇文章主要介绍Q学习——动作选择，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

在Q-Learning中采用的动作选择方法一般为贪婪策略，其原理为以一定的概率在随机选择与当前最大值中选择策略来决定需采取的动作，具体代码如下。

% 贪婪策略选取动作
function action_t=act_rand_select(EPSILON,state, Q, action )
% 读可选行为的个数
    if (rand > EPSILON) %若大于ε，则随机选择一个动作
        action_t = action(randsrc(1,1,randperm(3)));
    else %否则，选择值最大的动作
        index = max(Q(state,:));
        action_t=action(Q(state,:)==index);
        [~,w]=size(action_t);
        if w>1%若有多个可选动作，则随机选择一个
            action_t=action_t(randi(w));
        end
    end
end

最后

以上就是苗条故事为你收集整理的Q学习——动作选择的全部内容，希望文章能够帮你解决Q学习——动作选择所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(38)

本文分类：MATLAB
浏览次数：57 次浏览
发布日期：2024-09-17 20:15:02
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_10_fw_14_z_26_2.html

相关文章

Machine Learning A-Z学习笔记15-置信区间算法Machine Learning A-Z学习笔记15-置信区间算法

Machine Learning A-Z学习笔记15-置信区间算法Machine Learning A-Z学习笔记15-置信区间算法

置信区间上届算法UCB

深度解析机器学习中的置信区间（附代码）

深度解析机器学习中的置信区间（附代码）

【强化学习】随机策略梯度强化学习-TRPO置信域策略优化推导分析《Trust Region Policy Optimization》

【强化学习】随机策略梯度强化学习-TRPO置信域策略优化推导分析《Trust Region Policy Optimization》

Q学习——动作选择

推荐系统 --- 推荐算法 --- 混合推荐算法（二）

推荐系统 --- 推荐算法 --- 混合推荐算法（二）

统计基础（七）置信区间1.基本概念2.参数估计3.置信区间4.Determining Sample Size

统计基础（七）置信区间1.基本概念2.参数估计3.置信区间4.Determining Sample Size

上限置信度区间算法(UCT)1.多臂老虎机

上限置信度区间算法(UCT)1.多臂老虎机

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部