我是靠谱客的博主 疯狂薯片,最近开发中收集的这篇文章主要介绍(RL强化学习)强化学习基础知识Basic ComponentsBack propagationInverse RLPolicy Gradient,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录

  • Basic Components
    • Actor
    • Critic
      • 网络训练
      • Q-learning
    • Actor + Critic
      • A2C Advantage Actor-Critic
      • A3C Asynchtonous Advantage Actor-Critic
  • Back propagation
  • Inverse RL
  • Policy Gradient
    • Policy
    • Example
    • Gradient

Basic Components

  • 以Video Game为例

    • Actor:遥杆

    • Env:游戏界面

    • Reward Function:杀一个怪得20分

在这里插入图片描述

Actor

  • 一个神经网络

  • 输入游戏画面 输出action
    在这里插入图片描述

Critic

  • 给定一个actor的一个observation

  • Critic给出从现在到结束的reward的概率

  • Critic衡量Actor的好坏 但不决定action

  • example:打怪游戏:当当前的observation里面还很多怪 那给出的reward 概率就会高

    当当前的observation剩一点点怪 那么reward就低 因为到游戏结束也不会获得很高的分数
    在这里插入图片描述

    网络训练

    • MC

      • 给定一个state 得到这个state开始到游戏结束的reward G
      • 然后将这个state输入到Vπ 得到的值跟G越接近越好
        在这里插入图片描述
    • TD

      • 给定相邻的两个state分别送进去网络
      • 得到的差值越接近这个state后actor的得到的reward越好
        在这里插入图片描述

    Q-learning

    • Q function

      • 给定state 和 action

      • 给出这个state采取这个action的reward

      • 只适用于离散的action

在这里插入图片描述

  • 迭代过程

    • 给定一个actor π

    • 给出 state action 算出Q-value

    • 通过TD/MC更新Q function

    • 得到一个更好的actor π1

    • π1替换π
      在这里插入图片描述

Actor + Critic

  • 仅仅actor会根据当前observation得到一个reward 但这样子做随机性会很大
  • 故提出AC Critic指导Actor的行动

A2C Advantage Actor-Critic

在这里插入图片描述

A3C Asynchtonous Advantage Actor-Critic

  • 有一个global actor 和 critic
  • 建立一些分身进行跟环境互动 平行运算
  • 反馈参数到global

在这里插入图片描述

Back propagation

  • 为了maximize R(涛) 需要反向传播到Reward,Env ,Actor
  • 但是Reward,Env并不是网络
  • 所以需要用Policy Gradient去实现反向传播
    在这里插入图片描述

Inverse RL

  • 很多时候并不知道reward function
  • 需要一个跟环境互动过的专家Expert反推 reward function
  • 使用reward function 找到最好的Actor

在这里插入图片描述

  • 具体流程
    在这里插入图片描述
    在这里插入图片描述

Policy Gradient

Policy

  • 输入一个代表observation的矩阵或者向量

  • 输出端每一个action对应输出层的一个神经元
    在这里插入图片描述

Example

  • Actor 得到 S1 放入 Policy
  • 得到概率最高的action a1
  • 采取action后获得这个action的reward r1

在这里插入图片描述

  • 一直循环直到游戏结束 整个过程称为一个episode 所有reward的总和称为total reward

  • Actor的目的就是让total reward最大化
    在这里插入图片描述

  • (s1,a1,s2,a2…)的集合称为trajectory

  • 可以计算这个trajectory的概率
    在这里插入图片描述

  • Expected Reward

    • sample 一个 trajectory 乘上这个trajectory的total reward

    • sample所有的trajectory 并以total reward为权值加权起来就是 Expected Reward
      在这里插入图片描述

    Gradient

  • 目标是maximinze Expected Reward

  • gradient计算公式
    在这里插入图片描述

  • 具体流程
    在这里插入图片描述

最后

以上就是疯狂薯片为你收集整理的(RL强化学习)强化学习基础知识Basic ComponentsBack propagationInverse RLPolicy Gradient的全部内容,希望文章能够帮你解决(RL强化学习)强化学习基础知识Basic ComponentsBack propagationInverse RLPolicy Gradient所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(93)

评论列表共有 0 条评论

立即
投稿
返回
顶部