TD3:双延迟深度确定性策略梯度
基本概念TD3TD3全称Twin Delayed Deep Deterministic Policy Gradient,中文名双延迟深度确定性策略梯度。简单来说TD3算法是一个相对于DDPG算法优化的版本。TD3算法在DDPG算法的基础上,主要有三个方面的优化:1、网络结构的优化:TD3在DDPG基础上增加了一个Critic网络,主网络上TD3有2个Critic网络和一个Actor网络,同时Target目标网络也有主网络的一个备份。为什么增加一个Critic网络?原因很简单,增加一个Critic