策略梯度方法介绍——策略梯度定理推导过程目录 上一节介绍了Policy-Based强化学习方法的优势,并介绍了影响目标函数梯度的核心要素——状态分布。本节将使用状态分布对策略梯度定理进行表示。 强化学习 2023-09-12 63 点赞 0 评论 95 浏览