强化学习中的两种探索-平衡策略强化学习中的两种探索-平衡策略
强化学习中的两种探索-平衡策略ε-greedy方法UCB(Upper Confidence Bound)方法为了解决强化学习中的一个经典问题:exploration and exploitation tradeoff 即:到底我们应该花精力去探索从而对收益有更精确的估计,还是应该按照目前拥有的信息,选择最大收益期望的行为?这样看上去可能不好理解,一个小例子帮助理解:假如你想在淘宝上买一本书,你一输入书的名字就看到,第一个链接的价格为10元,第二个链接为9.9元,第三个为11元,此时你有两