独家 | 强化学习中的策略网络vs数值网络(附链接)
在强化学习中,智能体(agent)在环境中进行一些随机的抉择,并从很多选择中选择最优的一个来达到目标,实现优于人类的水平。在强化学习中,策略网络和数值网络通常一起使用,比如蒙特卡洛树搜索。这两个网络是探索蒙特卡洛树搜索算法中的一个整体部分。因为他们在迭代过程中被计算了很多次,所以也被叫做策略迭代和数值迭代,。接下来我们一起来理解这两个网络在机器学习中...