【学习强化学习】十、DDPG、TD3算法原理及实现参考资料1. 离散动作 vs. 连续动作2. DDPG3. Twin Delayed DDPG(TD3)4. 练习
文章目录参考资料1. 离散动作 vs. 连续动作1.1 随机性策略 vs 确定性策略2. DDPG2.1 介绍2.2 DDPG : DQN 的扩展。2.3 Exploration vs. Exploitation3. Twin Delayed DDPG(TD3)3.1 TD3的技巧3.2 Exploration vs. Exploitation4. 练习4.1 简答4.2 编程题参考资料https://datawhalechina.github.io/easy-rl/#/chapter12/ch