强化学习之探索与利用(一)
探索与利用在强化学习问题中,探索与利用事一对矛盾:探索尝试不同的行为继而收集更多的信息,利用则是做出当前信息下的最佳决定。探索可能会牺牲一些短期利益,通过搜集更多信息而获得较为长期准确的利益估计;利用则侧重于对根据已掌握的信息而做到短期利益最大化。探索不能无止境地进行,否则就牺牲了太多地短期利益进而导致整体利益受损;同时也不能太看重短期利益而忽视一些未探索地可能会带来巨大利益地行为。因此如何平衡探索和利用是强化学习领域地一个课题。根据探索过程中使用的数据结构,可以将探索分为:依据状态行为空间的探