Deep Reinforcement Learning for Dialogue Generation
Deep Reinforcement Learning for Dialogue Generation任何好理解,就是生成对话,之前采用最大似然来优化这个问题,会存在以下问题:生成的最后开始变得毫无意义,作者想利用增强学习来缓解这一点。有关为什么用Policy Gradient不用Q-Learning,作者是这样解释的:按照我对两种强化学习的理解,q-learning是最大化q值,a...