强化学习的学习之路（五）_2021-01-05：强化学习中的Exploration和Exploitation、Planning和Learning、Prediction和Control

269 阅读 0 评论 178 点赞

我是靠谱客的博主清秀唇膏，这篇文章主要介绍强化学习的学习之路（五）_2021-01-05：强化学习中的Exploration和Exploitation、Planning和Learning、Prediction和Control，现在分享给大家，希望可以做个参考。

作为一个新手，写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程，希望对大家能有所帮助。这个系列后面会不断更新，希望自己在2021年能保证平均每日一更的更新速度，主要是介绍强化学习的基础知识，后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的，后面发现大家上CSDN主要是来提问的，就把很多拆分开来了（而且这样每天任务量也小一点哈哈哈哈偷懒大法）。但是我还是希望知识点能成系统，所以我在目录里面都好按章节系统地写的，而且在github上写成了书籍的形式，如果大家觉得有帮助，希望从头看的话欢迎关注我的github啊，谢谢大家！另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏，很早以前就和小伙伴们花了很多精力写的，如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊！可能会有很多错漏，希望大家批评指正！不要高估一年的努力，也不要低估十年的积累，与君共勉！

Exploration和Exploitation

Exploration: trying new things that might enable the agent to make better decisions in the future
Exploitation: choosing actions that are expected to yield good reward given the past experience
Often there may be an exploration-exploitation trade-off.(When to explore and when to do exploitation？)
May have to sacrifice reward in order to explore & learn about potentially better policy
利用就是选择最高估计价值的动作而探索不是，短期来看利用是合理的，但是长期来看探索可能会带来总体收益的最大化，探索可以改善对非贪心动作的价值的估计。
Exploration(探索)：倾向于探索环境中新的信息，比如说去没吃过的饭店吃饭。
Exploitation(利用)：倾向于开发使用我们已经探测得到的最大reward，就像我们吃过海底捞了觉得海底捞好吃，以后就什么新的饭店也不去了就只吃海底捞。这么做相对来说确实是“安全”的，起码可以保证结果不至于太坏，但是可能我们永远就吃不到比海底捞更好吃的东西了。

Planning和learning

Learning problem：你的环境是未知的，你不能提前知道你的决策将对环境造成什么样的改变。我们需要通过不断地与环境交互，从而得知我们的action造成什么样的改变。
Planning Problem：我们的工作环境是已知的，我们被告知了整个环境的运作规则的详细信息。智能体能够计算出一个完美的模型，并且在不需要与环境进行任何交互的时候进行计算。在这种情况下智能体不用实时地与环境交互就能知道未来环境，只需要知道当前的状态，就能够开始思考，来寻找最优解。

感觉Planning和Learning就像是model-based和model-free？

Prediction和Control

预测(Prediction):给你一个policy，agent得到，这个policy能够得到多少reward，这是一个预估未来的过程。
控制（Control）: 确定众多决策中，哪一个决策能够得到最多的奖励。

要强调的是，这两者的区别就在于，预测问题是给定一个policy，我们要确定他的value function是多少。而控制问题，是在没有policy的前提下，我们要确定最优的value function以及对应的决策方案。

实际上，这两者是递进的关系，在强化学习中，我们通过解决预测问题，进而解决控制问题：我们会通过先衡量某个策略的好坏再接着对这个策略进行优化。

上一篇：强化学习的学习之路（四）_2021-01-04：强化学习中Agent的分类

下一篇：强化学习的学习之路（六）_2021-01-06：强化学习中的On-policy和Off-policy、On-line和Off-line、Deterministic和Stochastic