RL笔记_Balance exploration and exploitation 几种简单方法

83 阅读 0 评论 55 点赞

我是靠谱客的博主昏睡灯泡，这篇文章主要介绍RL笔记_Balance exploration and exploitation 几种简单方法，现在分享给大家，希望可以做个参考。

1，首先是pursuit方法，一直选择当前贪婪的action；

2，柯西-贪婪方法：以一定概率探索，随机选择非当前最优的action；

3，softmax ：在以一定概率探索的基础上，根据当前的action_value estimates，利用Gibbs函数对剩余action做grade，对第二种方法随机选择非最优的一个改进；

4，interval estimation：以上方法是在action得到确定value的基础上，而此方法选择action是在对action的评估的置信区间上，比如value值为10~20，置信度95%。被选择的action的置信区间有最大的上边界，这就会鼓励探索不确定的action，并且最终有可能得到一个最优action。这样做的缺点是实际情况可能不满足统计学的一些假设，并且统计学的模型在实际中由于模型复杂度也很难被真正使用。

5，贝叶斯优化方法：假设我们已经知道问题的概率分布，我们可以计算每一个可能的reward的概率以及之后的action-values的后验概率分布。这样的模型在计算上非常复杂，概率树的数目非常庞大，即便只有两个action和两个reward，如果玩1000次，就会有2^1000的叶子，这里列出仅供讨论。