大气花生

文章
6
资源
0
加入时间
2年10月21天

多臂赌博机Multi-Armed Bandit(MAB)1.问题来源:多臂赌博机问题2.探索-利用问题(Exploration-Exploitation dilemma)3.Bandit问题4. MAB类型5.Thompson sampling

1.问题来源:多臂赌博机问题一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么每次该选择哪个老虎机可以做到最大化收益呢?1)有K台机器,每次选取其中一台拉动杠杆,该机器提供一个随机的回报reward,每一台机器的reward服从特定的概率分布。2)一个赌徒有N次拉杆的机会,他的目标是使得回报rewar...