精明丝袜

文章
3
资源
0
加入时间
3年0月21天

Deep Reinforcement Learning for Dialogue Generation

Deep Reinforcement Learning for Dialogue Generation任何好理解,就是生成对话,之前采用最大似然来优化这个问题,会存在以下问题:生成的最后开始变得毫无意义,作者想利用增强学习来缓解这一点。有关为什么用Policy Gradient不用Q-Learning,作者是这样解释的:按照我对两种强化学习的理解,q-learning是最大化q值,a...