RL,MAB与Contextual Bandits区别

280 阅读 0 评论 185 点赞

我是靠谱客的博主威武美女，这篇文章主要介绍RL,MAB与Contextual Bandits区别，现在分享给大家，希望可以做个参考。

Contextual Bandits介于RL与MAB之间。

RL: 动作改变状态，奖励由状态，动作决定
CB: 动作不改变状态，奖励由状态，动作决定
MAB:动作不改变状态，奖励只由动作决定

linUCB是Contextual Bandits的一种方法。其基本思想是用函数近似期望收益，对于每一个动作，学习一个这样的估计函数，当面临新的状态s的时候，先估计每个动作的期望收益，再根据UCB算法挑一个动作做（综合考虑探索和贪心）。

最后

以上就是威武美女最近收集整理的关于RL,MAB与Contextual Bandits区别的全部内容，更多相关RL,MAB与Contextual内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(185)

本文分类：算法
浏览次数：280 次浏览
发布日期：2024-09-18 00:10:01

相关文章

【推荐实践】Bandit算法在携程推荐系统中的应用与实践

【推荐实践】Bandit算法在携程推荐系统中的应用与实践

《百面深度学习》试读 | 系列五：计算广告中的点击率预估问题

《百面深度学习》试读 | 系列五：计算广告中的点击率预估问题

如何用强化学习优化广告投放中的A/B Test

如何用强化学习优化广告投放中的A/B Test

Thompson sampling

Thompson sampling

RL,MAB与Contextual Bandits区别

RL,MAB与Contextual Bandits区别

[转载]从Thompson Sampling到增强学习，再谈多臂老虎机问题

[转载]从Thompson Sampling到增强学习，再谈多臂老虎机问题

2.1 A k-armed Bandit Problem

2.1 A k-armed Bandit Problem

Context-free Bandit算法来源应用场景原理（有策略地快速试一试）整体缺点参考资料

Context-free Bandit算法来源应用场景原理（有策略地快速试一试）整体缺点参考资料

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部