第九周编程总结--助教 题目1 查询水果价格(1)实验代码#include<stdio.h>int main (){int i,choice;double price; printf("[1] apple\n");printf("[2] pear\n");printf("[3] orange\n");printf("[4] grape\n");printf("[0] exit\n... Other 2023-06-12 69 点赞 1 评论 104 浏览
DDPG或TD3算法训练时总是输出边界值问题记录 最近在使用stable-baselines3框架中的DDPG算法时,发现一个问题:只要算法探索步数达到learning_starts,一开始学习,actor网络很快就会输出动作边界值,然后就保持不变,一直输出同样的边界值。后来换了TD3,发现也会出现这个问题,于是就上网查找解决方案,发现很多人都有这个问题,但是都没解决。下面我从自己的经验出发,结合网上其他人的分析,给出造成这个问题可能的原因以及解决方案:1.如果你的actor网络输出使用tanh函数,那么一个很大的可能性就是预激活变量(输入ta 强化学习 2023-06-07 55 点赞 0 评论 83 浏览