《Neural Machine Translation with Key-Value Memory-Augmented Attention》（IJCAI 2018）

96 阅读 0 评论 64 点赞

我是靠谱客的博主忧虑海燕，最近开发中收集的这篇文章主要介绍《Neural Machine Translation with Key-Value Memory-Augmented Attention》（IJCAI 2018），觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

问题：重复翻译，漏译问题，传统基于注意力的NMT不能有效追踪注意力历史，导致decoder会忽略历史的注意力信息

解决方法：一个及时更新的key-memory来跟踪注意力历史，一个固定的value-memory来存储翻译过程中源语句的表示。通过两个存储器之间的非平凡变换和迭代交互，解码器关注于更合适的源端单词，用于在每个解码步骤预测下一个目标单词，因此可以提高翻译的充分性。

思路：首先利用decoder的前一时刻状态和前一时刻的预测来生成一个查询，根据查询在key-memory中计算注意力向量，利用注意力向量和value-memory获得上下文向量，并使用查询和上下文向量计算decoder当前时刻的隐藏层状态，最后使用隐藏层状态更新value-memory。

key-memory：动态的，伴随decoder状态的更新链

value-memory：固定的，在整个翻译过程存储源语句表示

在每个解码步骤中，一层一层地重复进行多轮存储器操作，这可以通过考虑在早期阶段实现的“中间”注意力结果，从而使解码器有机会重新注意。这种结构允许模型利用可能的复杂转换和交互：1）同一层中的key-value存储器对，以及2）不同层的key（和value）存储器。

key-value memory-augmented attention model

三个组成部分：1）编码器（左侧），编码整个源语句并输出其注释作为key-memory和value-memory的初始化; 2）key-value存储器增强注意模型（在中间），生成源语句的上下文表示，其适合于在key-memory和value-memory上执行的迭代存储器访问操作，来预测下一目标单词; 3）解码器（右侧），逐步预测下一个目标单词。

步骤t解码器状态首先遇到之前的预测来形成一个查询状态