从零实践强化学习之基于策略梯度求解RL(PARL)随机策略与策略梯度PolicyGradeint算法公式推导
这部分的内容,我个人感觉主要是数学公式,稍微有一点难,不过没关系,我们从代码出发,再去理解数学公式之前我们学习的是用函数去拟合Q-funtion,然后再根据Q值选择最佳策略,这节课讲的是直接拟合策略的方法,会用到策略梯度的方法在第一节课的时候,科老师就提到了智能体agent的两种学习方案:随机策略的方案 与 策略梯度的方案随机策略与策略梯度在强化学习中,有两大类方法,一种基于值(Value-based),一种基于策略(Policy-based)Value-based的算法的典型代表为Q-l