RL 实践(1)—— 多臂赌博机1. 多臂老虎机2. 各种平衡探索和利用的策略3. 总结 在多臂赌博机环境编程对比 ϵ-贪心,Decaying ϵ-贪心,UCB,汤普森采样等平衡探索和利用的方法 # 实践 2024-09-17 38 点赞 0 评论 57 浏览