强化学习笔记:多臂老虎机问题(7)--Gradient Bandit Algorithm0. 前言1. 算法原理2. Python仿真3. 练习题4. 小结 本节我们继续基于多臂老虎机问题学习一种基于梯度下降的行动选择方法:Gradient Bandit Algorithm Ref: Sutton-RLBook2020-2.8: Gradient Bandit Algotihm 强化学习 2023-06-30 49 点赞 0 评论 74 浏览