【Saras算法】TD Learning的一种1.TD target的推导2.表格型的SARSA: Tabular Version3.网络型SARSA: Sarsa Neural Network Version Summary:
强化学习相关的Sarsa算法的介绍。此处笔记根据B站课程,王树森老师的强化学习记录而来。Sarsa算法是TD算法的一种,名字来源于 需要观测的五元组(s(t), a(t), r(t), s(t+1), a(t+1)),即 State-Action-Reward-State-Action ,简称SARSA。...