我是靠谱客的博主 愉快白羊,最近开发中收集的这篇文章主要介绍gym Pendulum-v0,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

原文链接: gym Pendulum-v0

上一篇: tensorflow_probability

下一篇: tf actor critic Pendulum-v0 钟摆

gym 环境解析:Pendulum-v0

2.1 Observation & state

973bf8f67c156f64e402d46e1ad1f6e70d4.jpg

state是最原始的环境内部的表示,observation则是state的函数。好比我们所看见的东西并不一定就是它们在世界中的真实状态,而是经过我们的大脑加工过的信息

2.2 Actions

7747af86a82846d5fff43711b60963a66c5.jpg

2.3 Reward

奖励的精确等式:
-(theta^2 + 0.1*theta_{dt}^2 + 0.001*action^2)

theta-pipi 之间归一化。因此,
最小代价是 - (pi ^ 2 + 0.1 * 8 ^ 2 + 0.001 * 2 ^ 2)= - 16.2736044
最高代价为0。
实质上,目标是保持零角度(垂直),旋转速度最小,力度最小。

2.4 初始状态

-pipi 的随机角度,以及-1和1之间的随机速度

2.5 终止状态- Episode Termination

没有指定的终止状态。 添加最大步数可能是个好主意。


随机选择动作执行,不会停止

import gym
name = "Pendulum-v0"
# name = "CartPole-v0"
env = gym.make(name)
env.reset()
action = env.action_space.sample()
print(env.action_space)
print(env.observation_space)
observation, reward, done, info = env.step(action)
print(observation, reward, done, info)
while True:
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
print(reward)
env.render()

最后

以上就是愉快白羊为你收集整理的gym Pendulum-v0的全部内容,希望文章能够帮你解决gym Pendulum-v0所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(45)

评论列表共有 0 条评论

立即
投稿
返回
顶部