温暖酸奶

文章
2
资源
0
加入时间
3年1月8天

DRL(四)——Value Function

感觉这一讲的内容大多都在复习之前我在RL里学过的内容,而且我发现,相比于David Silver 的强化学习内容,这个伯克利的DRL课程顺序刚好相反。RL是由表格型开始,讲了V(s) 和 Q(s, a),之后再讲的Function approximator,而DRL是先Policy Gradient 然后才提到Q Function。虽然内容都差不多,但是我还没明白不同的顺序是否侧重点不同,而两...