强化学习 之 探索与利用一、概念二、策略探索的原则三、多臂老虎机四、Regret 函数五、讨论
一、概念Exploitation 执行能够获得最优收益的策略Exploration 尝试更多可能的策略,不一定会是最优收益 可能发现更好的策略二、策略探索的原则朴素方法 贪心策略和 ϵ-greedy 衰减贪心策略 ϵ随时间衰减积极初始化 给Q(a^i)一个较高的初始化值基于不确定性的度量 显示地考虑动作的价值分布 UCB:上置信界概率匹配 Thompson Sampling 根据每个动作成为最优的概率来选择动作状态搜索 像AlphaGo,基于整个透明的可搜索可.