强化学习基础
一、马尔可夫决策过程从强化学习的基本原理可以看出他与监督学习与非监督学习的一些差别,在监督、非监督学习中数据是静态的,不需要与环境进行交互,强化学习的环境是动态的,不断交互的过程,所需要的数据也是通过与环境不断交互得到的。所以,与监督学习相比,强化学习涉及的环境更多,比如动作,环境,状态转移概率和回报函数等。强化学习的经典框架就是马尔可夫决策过程简称MDP,下面介绍几个马尔可夫过程需要用到...