qlearning算法_强化学习系列Q Learning

92 阅读 0 评论 61 点赞

我是靠谱客的博主仁爱人生，这篇文章主要介绍qlearning算法_强化学习系列Q Learning，现在分享给大家，希望可以做个参考。

上一篇介绍了强化学习的一些基本概念强化学习系列--概念介绍(Introduction to Reinforcement Learning)，今天我们讲解一个简单且经典的强化学习算法：Q-Learning。

背景

按照不同分类标准，Q Learning可以被分为：model-free，off-policy，value-based，TD等类别。

Q Learning算法思想主要是去学习一个纵坐标为状态(state)、横坐标是动作(action)、取值为当前状态下执行对应action时所获得的奖励(短期激励+长期收益)的Q-table矩阵。我们通过大量试错获取经验(reward)来更新Q-table，最终通过Q-table中记录的奖励情况来指导某个state执行哪个action可以获取最大收益。

举个例子：一个小朋友(agent)假设无任何历史奖惩经验，那么Q-table中每个元素初使值都为0。

当小朋友还没做完作业状态时(state1)，去学习(action1)还是去看电视(action2)得到父母的奖励是不一样的，学习的奖励会是一个棒棒糖(+2)，看电视的奖励将会是挨揍一顿(-2)。

当小朋友已经做完作业时(state2)，去学习(action 1)还是去看电视得到的奖励又会和state1的情况有所不同，此时学习的奖励为+1，看电视奖励会是-1。

...

多次经验总结后，Q-table的取值更新如下：

要特别说明的是，Q(s, a)除了代表本次(s, a)操作获得的reward外，还考虑未来的收益。即：Q(s, a) = reward(本次s-a操作) + Q(未来奖励)。

算法思想

Q-Learning的逻辑如上图，大致流程为：

1)随机选取一个状态S

2)在此S状态下，根据贪婪( 或者 ε-贪婪)选取动作 A

3)执行动作A，并根据enviroment的反馈获取reward R和下一状态S'

4)根据贪心算法，选取S’状态下reward最大的action a’。然后，使用(S,A)状态下的反馈奖励R以及(s',a')的未来奖励(Q值)采用时序差分方法(TD)更新Q(s,a)的状态奖励值

5)更新状态S

6)重复1步骤，直至Q-table内取值均收敛

代码逻辑

针对上面算法思想，我们看看代码是如何执行的，代码非常简单，就选action和更新Q-table两个主要function。备注：代码摘自莫烦github。

复制代码

class QLearningTable：    def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):        self.actions = actions  # action 列表        self.lr = learning_rate  # step4中alpha        self.gamma = reward_decay  # step4中gamma        self.epsilon = e_greedy  # step2中e-greedy概率        self.q_table = pd.DataFrame(columns=self.actions, dtype=np.float64)    def choose_action(self, observation):   # step 2        # action selection        if np.random.uniform()             # 选取Q最大的action            state_action = self.q_table.loc[observation, :]            # 存在Q值相同的多个action,随机选取一个            action = np.random.choice(state_action[state_action == np.max(state_action)].index)        else:  # 命中exploration，随机选取action            # 随机选action            action = np.random.choice(self.actions)        return action    def learn(self, s, a, r, s_):        self.check_state_exist(s_)  # 确认s是否是有效状态        q_predict = self.q_table.loc[s, a]  # 从Q-table中获取预估值Q(s, a)        if s_ != 'terminal’:              q_target = r + self.gamma * self.q_table.loc[s_, :].max()  # 实际的Q(s, a) = 短期环境奖励r + 长期激励Q(s',max_a)        else:            q_target = r # 如果下一状态游戏结束，Q(s, a)便只有当前奖励，没有未来奖励(游戏已结束，没有未来的操作)        self.q_table.loc[s, a] += self.lr * (q_target - q_predict) # update

1
class QLearningTable：    def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):        self.actions = actions  # action 列表        self.lr = learning_rate  # step4中alpha        self.gamma = reward_decay  # step4中gamma        self.epsilon = e_greedy  # step2中e-greedy概率        self.q_table = pd.DataFrame(columns=self.actions, dtype=np.float64)    def choose_action(self, observation):   # step 2        # action selection        if np.random.uniform()             # 选取Q最大的action            state_action = self.q_table.loc[observation, :]            # 存在Q值相同的多个action,随机选取一个            action = np.random.choice(state_action[state_action == np.max(state_action)].index)        else:  # 命中exploration，随机选取action            # 随机选action            action = np.random.choice(self.actions)        return action    def learn(self, s, a, r, s_):        self.check_state_exist(s_)  # 确认s是否是有效状态        q_predict = self.q_table.loc[s, a]  # 从Q-table中获取预估值Q(s, a)        if s_ != 'terminal’:              q_target = r + self.gamma * self.q_table.loc[s_, :].max()  # 实际的Q(s, a) = 短期环境奖励r + 长期激励Q(s',max_a)        else:            q_target = r # 如果下一状态游戏结束，Q(s, a)便只有当前奖励，没有未来奖励(游戏已结束，没有未来的操作)        self.q_table.loc[s, a] += self.lr * (q_target - q_predict) # update

实例介绍

介绍完代码思想，我再介绍一个Q-Learning的实际例子，供大家熟悉：

假设一栋建筑里有5个房间(已编号0-4)，房间之间通过门相连，如下图(左图)所示。我们的目标是要走出房间，走出房间(室外编号为5)则可获得奖励100。我们对房间的连通情况进行抽象，如下图右图。