2023年06月归档_内向汽车的博客_Windows xp,python编程,强化学习,Other,php领域博主

第九周编程总结--助教

题目1 查询水果价格（1）实验代码#include<stdio.h>int main (){int i,choice;double price; printf("[1] apple\n");printf("[2] pear\n");printf("[3] orange\n");printf("[4] grape\n");printf("[0] exit\n...

Other 2023-06-12 217 点赞 3 评论 328 浏览

最近在使用stable-baselines3框架中的DDPG算法时，发现一个问题：只要算法探索步数达到learning_starts，一开始学习，actor网络很快就会输出动作边界值，然后就保持不变，一直输出同样的边界值。后来换了TD3，发现也会出现这个问题，于是就上网查找解决方案，发现很多人都有这个问题，但是都没解决。下面我从自己的经验出发，结合网上其他人的分析，给出造成这个问题可能的原因以及解决方案：1.如果你的actor网络输出使用tanh函数，那么一个很大的可能性就是预激活变量（输入ta

强化学习 2023-06-07 240 点赞 3 评论 363 浏览

内向汽车

第九周编程总结--助教

DDPG或TD3算法训练时总是输出边界值问题记录

他的专栏

他的归档

热门文章