论文笔记:Hierarchical Deep Reinforcement Learning:Integrating Temporal Abstraction and Intrinsic1 abstract & introduction2 模型部分 3 实验部分
2016 nips 根据上面,有如下的Q-value function使用神经网络Q1,Q2来近似Q1*和Q2*,记他们的损失函数分别为,将Q1和Q2的transition 分别记录到经验回放D1和D2中记第i次训练迭代(epoch)的参数为。 比较了论文的方法(由于这边只有六个状态,所以没有用DQN,直接Q-table)和Q-learning。这里ε会在50,000步内慢慢从1降低到0.1.学习率为2.5*10^{-4} 从3a可以发现论文方法的有效性;从3b可以发现,随着training