RL笔记_Balance exploration and exploitation 几种简单方法
1,首先是pursuit方法,一直选择当前贪婪的action;2,柯西-贪婪方法:以一定概率探索,随机选择非当前最优的action;3,softmax :在以一定概率探索的基础上,根据当前的action_value estimates,利用Gibbs函数对剩余action做grade,对第二种方法随机选择非最优的一个改进;4,interval estimation:以上方法是在acti