一个算法对于某个输入的循环次数是可以事先估计出来的_在线学习(MAB)与强化学习(RL)[4]:贝叶斯Bandit算法...
本篇文章是系列的第四篇,我们在bandit情形下介绍Thompson sampling(TS),下一篇情况我们将在更一般的RL情形介绍Thompson sampling。我们知道,Thompson sampling是贝叶斯框架下在线学习的适用性算法。对于贝叶斯和非贝叶斯的bandit讨论可见本系列第一篇文章:覃含章:在线学习(MAB)与强化学习(RL)[1]:引言zhuanlan.zhihu....