过时裙子

文章
5
资源
0
加入时间
2年10月21天

强化学习_03_利用与探索一、利用与探索二、利用与探索的简单试验

一、利用与探索对于一个智能体而言需要权衡利用和探索。利用就是利用过往的经验,探索就是对环境进行随机的探索二、利用与探索的简单试验2.1 环境构建对于一个摇臂机器, 有n个臂,不同臂的中奖概率不同,我们需要在一定的摇臂次数之内达到最高的收益。class RockerEnv: def __init__(self, rocker_reward_rate_list, total_do=30): self.rocker_reward_rate_list = rocker_rewar