2023年03月归档_冷静小天鹅的博客_笔记本电脑,JavaScript,论文笔记,linux向进程发信号,Linux领域博主

论文笔记：Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic1 abstract & introduction2 模型部分 3 实验部分

2016 nips 根据上面，有如下的Q-value function使用神经网络Q1,Q2来近似Q1*和Q2*，记他们的损失函数分别为,将Q1和Q2的transition 分别记录到经验回放D1和D2中记第i次训练迭代（epoch）的参数为。比较了论文的方法（由于这边只有六个状态，所以没有用DQN，直接Q-table）和Q-learning。这里ε会在50,000步内慢慢从1降低到0.1.学习率为2.5*10^{-4} 从3a可以发现论文方法的有效性；从3b可以发现，随着training

论文笔记 2023-03-08 56 点赞 0 评论 84 浏览

冷静小天鹅

论文笔记：Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic1 abstract & introduction2 模型部分 3 实验部分

他的专栏

他的归档

热门文章

冷静小天鹅

论文笔记：Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic1 abstract & introduction2 模型部分 3 实验部分

他的专栏

他的归档

热门文章

微信扫一扫：分享