纯情西牛

文章
4
资源
0
加入时间
3年0月28天

强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现

强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现TD3算法简介TD3是Twin Delayed Deep Deterministic policy gradient algorithm的简称,双延迟深度确定性策略梯度。从名字看出,TD3算法是DDPG的改进版本。TD3相对于DDPG,主要采用了以下重要改进。Double networkCritic学习改进Actor学习改进target policy smoothing regularization算法流