迅速小丸子

文章
2
资源
0
加入时间
2年10月24天

强化学习——探索与利用基本方法

探索和利用的困局(exploration exploitationdilemma):利用是做出当前信息下的最佳决定, 探索则是尝试不同的行为继而收集更多的信息。最好的长期战略通常包含一些牺牲短期利益举措。通过搜集更多或者说足够多的信息使得个体能够达到宏观上的最佳策略。几个基本的策略朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索; 乐观初...

HDU - 1166 - 敌兵布阵(线段树基础操作)

HDU - 1166 - 敌兵布阵C国的死对头A国这段时间正在进行军事演习,所以C国间谍头子Derek和他手下Tidy又开始忙乎了。A国在海岸线沿直线布置了N个工兵营地,Derek和Tidy的任务就是要监视这些工兵营地的活动情况。由于采取了某种先进的监测手段,所以每个工兵营地的人数C国都掌握的一清二楚,每个工兵营地的人数都有可能发生变动,可能增加或减少若干人手,但这些都逃不过C国的监视。 ...