gym强化学习入门demo——随机选取动作其实有了这些动作和反馈值以后就可以用来训练DNN网络了...

192 阅读 0 评论 127 点赞

我是靠谱客的博主潇洒吐司，这篇文章主要介绍gym强化学习入门demo——随机选取动作其实有了这些动作和反馈值以后就可以用来训练DNN网络了...，现在分享给大家，希望可以做个参考。

# -*- coding: utf-8 -*-
import gym
import time
env = gym.make('CartPole-v0')
observation = env.reset()
print(observation)

print("env actionspace：")
print(env.action_space)

print("env observationspace：")
print(env.observation_space)
print(env.observation_space.high)
print(env.observation_space.low)

count = 0
for t in range(100):
    #随机选择一个动作
    action = env.action_space.sample()
    #执行动作 获取环境反馈
    observation, reward, done, info = env.step(action)
    #如果玩死了就退出
    if done:
        break
    env.render()
    count+=1
    time.sleep(0.2)
print(count)

效果图：

转载于:https://www.cnblogs.com/bonelee/p/9149608.html

最后

以上就是潇洒吐司最近收集整理的关于gym强化学习入门demo——随机选取动作其实有了这些动作和反馈值以后就可以用来训练DNN网络了...的全部内容，更多相关gym强化学习入门demo——随机选取动作内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(127)

本文分类：人工智能
浏览次数：192 次浏览
发布日期：2024-09-17 19:15:02
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_10_fw_14_jk0.html

相关文章

负载均衡策略（二.随机策略）

强化学习&基础1.6 | 决定性策略和随机性策略

强化学习&基础1.6 | 决定性策略和随机性策略

【论文翻译】A Comprehensive Survey on Safe Reinforcement Learning

【论文翻译】A Comprehensive Survey on Safe Reinforcement Learning

Causal Embeddings for Recommendation》笔记

Causal Embeddings for Recommendation》笔记

gym强化学习入门demo——随机选取动作其实有了这些动作和反馈值以后就可以用来训练DNN网络了...

gym强化学习入门demo——随机选取动作其实有了这些动作和反馈值以后就可以用来训练DNN网络了...

on-policy与off-policy；确定性策略与随机策略1 on-policy与off-policy2 确定性策略和随机性策略

on-policy与off-policy；确定性策略与随机策略1 on-policy与off-policy2 确定性策略和随机性策略

强化学习——随机策略与策略梯度

强化学习——随机策略与策略梯度

强化学习之确定性策略网络和随机策略网络1 确定性策略2 随机策略2.1 分类策略2.2 对角高斯策略

强化学习之确定性策略网络和随机策略网络1 确定性策略2 随机策略2.1 分类策略2.2 对角高斯策略

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部