【强化学习】随机策略梯度强化学习-TRPO置信域策略优化推导分析《Trust Region Policy Optimization》
本文参照此文做了学习整理。根据策略梯度方法,很难选择步长使参数更新向着策略变好的方向变化,如果步长不合适,可能导致越学越差致使系统崩溃。如何选择一个合适的步长,或者说,如何找到新的策略使新的回报函数的值单调递增,或单调不减。这是TRPO解决的问题。强化学习的回报函数定义为:η(π~)=Eπ~[∑t=0∞γt(r(st))]\eta(\tilde{\pi} )=E_{\tilde{\pi}...