代码实现DQN的ε-greedy(Epsilon贪婪策略),取得相反结果 DQN训练中,设置ε-greedy策略,一开始让智能体选择较多的随机动作,越后期,随机动作越小,这样的训练效果最好,但为什么在我的实验中,是相反的? DQN 2024-09-17 39 点赞 0 评论 59 浏览