强化学习入门: the 10-armed bandit problem,e-greedy 算法问题描述:the 10-armed bandit problem算法1: ϵ − g r e e
学习强化学习《Reinforcement Learning An Introduction》,2.3节,做了个Matlab的仿真。问题描述:the 10-armed bandit problem这是一个重复做选择的问题。一共有10个选择,重复选择1000次。每次选择都会有奖励,奖励是符合固定的正态分布的。所以做不同的选择,获得的奖励不同;每次做的选择,尽管选择相同,但奖励也不同。你的目的...