【强化学习】1-1-2 “探索”(Exploration)还是“ 利用”(Exploitation)都要“面向目标”(Goal-Direct)

207 阅读 0 评论 137 点赞

我是靠谱客的博主机智长颈鹿，这篇文章主要介绍【强化学习】1-1-2 “探索”(Exploration)还是“ 利用”(Exploitation)都要“面向目标”(Goal-Direct)，现在分享给大家，希望可以做个参考。

title: 【强化学习】1-1-2 “探索”(Exploration)还是“ 利用”(Exploitation)都要“面向目标”(Goal-Direct)
categories:
- Reinforcement Learning
- RL-An Introduction
keywords:
- Trade-Off
- Exploration
- Exploitation
- Goal-Direct
- 平衡
- 探索
- 利用
- 目标导向
toc: true
date: 2018-08-27 22:55:15

Abstract: 本文介绍强化学习中最重要的一个挑战—— “探索”(Exploration)还是“ 利用”(Exploitation)
Keywords: Trade-Off，Exploration，Exploitation，Goal-Direct，平衡，探索，利用，目标导向

Trade-off between Exploitation and Exploration(利用和探索之间的平衡)

在强化学习中会遇到一个伴随一生的问题，这个问题其实也出现在我们的生活中，也会遇到这种问题，当你遇到一个问题，一个你以前已经遇到过的问题，你有两种选择，第一种，按照以前的方法（其中之一）来完成这件事（Exploitation）；或者，你可以尝试另一种方法，一种全新的方法（Exploration）；前者可以获得稳定的效果，但是不一定是最优的，后者可能会得到更优的方法，但是也可能得到一个不如以前方法的效果。

同样的情况在强化学习中会一直伴随我们，两种action，选择其中一个是困难的。在下棋的过程中，针对当前的environment，我们的agent以前有类似的经历，是按照过去的经验完成，还是创新一下，采用一种以前没有经验的方法，这个问题dilemma的，而且这两种方法都没有办法保证自己不会失效（fail）
对于一个随机性的任务，更是要经过无数的尝试，才能得到一个稳定的期望，所以那个?经过了这么久才能在围棋这种困难的项目上打败人类，而更早的深蓝只能在较简单的项目上打败人类（没错，是什么棋我忘了）。这里所谓的随机性的任务，通俗理解，可以想象成打麻将?
对于Exploration 和 Exploitation之间的平衡在第二章中详细分析，这个问题经过了几十年大量数学研究，似乎还是没研究明白。
我们只需要简单的记住，我们要平衡他们就可以了。

监督学习，非监督学习则没有这个问题，所以RL跟他们没有附属关系。