我是靠谱客的博主 威武美女,最近开发中收集的这篇文章主要介绍RL,MAB与Contextual Bandits区别,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

Contextual Bandits介于RL与MAB之间。

  • RL: 动作改变状态,奖励由状态,动作决定
  • CB: 动作不改变状态,奖励由状态,动作决定
  • MAB:动作不改变状态,奖励只由动作决定

linUCB是Contextual Bandits的一种方法。其基本思想是用函数近似期望收益,对于每一个动作,学习一个这样的估计函数,当面临新的状态s的时候,先估计每个动作的期望收益 ,再根据UCB算法挑一个动作做(综合考虑探索和贪心)。

最后

以上就是威武美女为你收集整理的RL,MAB与Contextual Bandits区别的全部内容,希望文章能够帮你解决RL,MAB与Contextual Bandits区别所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(30)

评论列表共有 0 条评论

立即
投稿
返回
顶部