概述
原文链接: gym Pendulum-v0
上一篇: tensorflow_probability
下一篇: tf actor critic Pendulum-v0 钟摆
gym 环境解析:Pendulum-v0
2.1 Observation & state
state是最原始的环境内部的表示,observation则是state的函数。好比我们所看见的东西并不一定就是它们在世界中的真实状态,而是经过我们的大脑加工过的信息
2.2 Actions
2.3 Reward
奖励的精确等式:
在 和 之间归一化。因此,
最小代价是 ,
最高代价为0。
实质上,目标是保持零角度(垂直),旋转速度最小,力度最小。
2.4 初始状态
从 和 的随机角度,以及-1和1之间的随机速度
2.5 终止状态- Episode Termination
没有指定的终止状态。 添加最大步数可能是个好主意。
随机选择动作执行,不会停止
import gym
name = "Pendulum-v0"
# name = "CartPole-v0"
env = gym.make(name)
env.reset()
action = env.action_space.sample()
print(env.action_space)
print(env.observation_space)
observation, reward, done, info = env.step(action)
print(observation, reward, done, info)
while True:
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
print(reward)
env.render()
最后
以上就是愉快白羊为你收集整理的gym Pendulum-v0的全部内容,希望文章能够帮你解决gym Pendulum-v0所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复