强化深度学习task06连续动作空间和DDPG

312 阅读 0 评论 206 点赞

我是靠谱客的博主拼搏发带，这篇文章主要介绍强化深度学习task06连续动作空间和DDPG，现在分享给大家，希望可以做个参考。

一、连续动作和离散动作
连续动作：动作是连续的浮点数比如速度、推力、角度、电压等
离散动作：动作是离散值，比如上下左右等。
求解方法：
在这里插入图片描述
离散动作：softmax映射
连续动作：tanh连续映射
二、DDPG

是DQN的扩展版，可扩展至连续空间

actor-critic结构

演员输出动作，并根据评论家的评判修改动作策略，评论家根据分数（观众反应）得出动作评判标准
在这里插入图片描述

最后

以上就是拼搏发带最近收集整理的关于强化深度学习task06连续动作空间和DDPG的全部内容，更多相关强化深度学习task06连续动作空间和DDPG内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(206)

本文分类：Other
浏览次数：312 次浏览
发布日期：2023-09-12 21:05:09

相关文章

百度七天强化学习心得体会

【撕书系列DRL】CH2-动作空间设计动作空间常见类型动作空间设计原则

【撕书系列DRL】CH2-动作空间设计动作空间常见类型动作空间设计原则

Paddle强化学习从入门到实践（Day5）：连续动作空间的求解离散空间和连续空间DDPG算法代码与实践结果

Paddle强化学习从入门到实践（Day5）：连续动作空间的求解离散空间和连续空间DDPG算法代码与实践结果

自抗扰控制入门之TD篇（纯小白入门向和TD数学表达式的推导）一：所用到的两篇参考论文和相关博客二：DT的基本数学表达式三：对TD数学表达式进行说明和讲解（从零讲起）

自抗扰控制入门之TD篇（纯小白入门向和TD数学表达式的推导）一：所用到的两篇参考论文和相关博客二：DT的基本数学表达式三：对TD数学表达式进行说明和讲解（从零讲起）

强化深度学习task06连续动作空间和DDPG

强化深度学习task06连续动作空间和DDPG

Discrete VS Continuous ControlDiscrete VS Continuous Control

Discrete VS Continuous ControlDiscrete VS Continuous Control

control 学习笔记

DQN 原理（二）：理解 DQN 中的“Q”

DQN 原理（二）：理解 DQN 中的“Q”

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部