Deep Reinforcement Learning for Dialogue Generation

84 阅读 0 评论 56 点赞

我是靠谱客的博主精明丝袜，最近开发中收集的这篇文章主要介绍Deep Reinforcement Learning for Dialogue Generation，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

Deep Reinforcement Learning for Dialogue Generation

任务好理解，就是生成对话，之前采用最大似然来优化这个问题，会存在以下问题：
在这里插入图片描述
生成的最后开始变得毫无意义，作者想利用增强学习来缓解这一点。
有关为什么用Policy Gradient不用Q-Learning，作者是这样解释的：

按照我对两种强化学习的理解，q-learning是最大化q值，action未必是最优的。policy是直接最优化action。有关初始化的差距也可能的确是一方面，这一点不是很确定。

更进一步详细，这里的Policy，使用的是stochastic.
在这里插入图片描述
相关内容可以参看：
【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解

重点截图：
在这里插入图片描述

开头的问题怎么解决呢？就是在计算reward的时候把这种重复考虑进来：
在这里插入图片描述
首先作者统计了可能重复的句子，如果生成的句子偏向这种重复的，就给一个负的reward.(我其实好奇，如果不用增强学习，用最大估计是不是也能把这个损失加进去？可能不是特别好加，没有强化学习来的直观。)

除了不能说“废话”的约束之外，还有一个不能说“重复的话”的约束，简单来说就不能一直说：我不知道，我不知道，我不知道。。。。（虽然在现实中会出现这种情况，不过毕竟是少数），这个“不能重复”的约束是怎么加的？是这样：
在这里插入图片描述
直接计算cos相似度，如果太相似，就给一个更负的reward.

除了这两个reward，作者还提出一个，不能说“没有意义的话”，这里是不合逻辑的意思，就是给了上句，下句和这句应该是有关系的。有逻辑的，能够相互推理出来。如下：
在这里插入图片描述
也就是反向训练了一个生成器，讲道理，大部分情况下，应该是能互推的。
最后

最后就optimization
在这里插入图片描述

最后

以上就是精明丝袜为你收集整理的Deep Reinforcement Learning for Dialogue Generation的全部内容，希望文章能够帮你解决Deep Reinforcement Learning for Dialogue Generation所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(56)

本文分类：论文阅读
浏览次数：84 次浏览
发布日期：2023-08-19 10:05:04
本文链接：https://www.kaopuke.com/article/k-p-k_14_uzo_18_fy_14_j_10_y.html

相关文章

R语言rcurl抓取问财财经搜索网页股票数据

R语言rcurl抓取问财财经搜索网页股票数据

R语言用Garch模型和回归模型对股票价格分析Garch模型预测波动性强影响点分析预测

R语言用Garch模型和回归模型对股票价格分析Garch模型预测波动性强影响点分析预测

深度增强学习（DRL）漫谈 - 从DQN到AlphaGo

深度增强学习（DRL）漫谈 - 从DQN到AlphaGo

论文解读：Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning论文解读：Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning （2018 ACL）

论文解读：Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning论文解读：Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning （2018 ACL）

Deep Reinforcement Learning for Dialogue Generation

Deep Reinforcement Learning for Dialogue Generation

论文解读：Exploring Object Relation in Mean Teacher for Cross-Domain Detection

论文解读：Exploring Object Relation in Mean Teacher for Cross-Domain Detection

强化学习在计算机视觉领域的应用

强化学习在计算机视觉领域的应用

深度学习推荐系统笔记之前沿实践1.GBDT+LR

深度学习推荐系统笔记之前沿实践1.GBDT+LR

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部