游戏中的随机地形生成算法(一) 本文以Unity为例。我们首先明确一下思路,使用一个整形二维数组来存储地图信息,其中1代表障碍,0代表道路。int[,] map;我们还需要定义一个概率,来控制生成障碍的数量。[Range(0,100)] //这行代码用来在面板上显示一个滑动条public int probability;以及如下变量。//地图的长和高public int Unity 2023-09-14 44 点赞 0 评论 66 浏览
Actor-Critic:强化学习中的参与者-评价者算法简介 Actor-Critic从名字上看包括两部分,参与者(Actor)和评价者(Critic)。其中Actor使用策略函数,负责生成动作(Action)并和环境交互。而Critic使用我们之前讲到了的价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作。基于策略和基于价值的RL算法在基于策略的RL中,最优策略是通过直接操纵策略来计算的,而基于价值的函数通过找到最优值函数来隐式地找到最优策略。 基于策略的RL在高维和随机的连续动作空间以及学习随机策略方面非常有效。 同时,基于价值的RL在 深度学习 2023-09-13 41 点赞 0 评论 62 浏览