光亮茉莉

文章
7
资源
0
加入时间
3年0月8天

强化学习の学习笔记(一)——多臂老虎机、ε-greedy策略、乐观初始值、增量式实现、梯度赌博机

文章目录前言符号约定多臂老虎机基于平均学习Q函数ε-greedy策略乐观初始值增量式实现梯度赌博机前言因为毕设的关系,要学习点强化学习的内容。我采用的教材是Richard S. Sutton/Andrew G. Barto著,俞凯等译的《强化学习(第2版)》。符号约定一般来说,大写符号代表随机变量,小写符号代表随机变量的一次具体实现。At=defA_t\xlongequal[]{\mathrm{def}}At​def​ 在时刻 ttt 采取的动作( AAA 意味着action)Rt=defR_