【论文笔记】Reasoning about Entailment with Neural AttentionReasoning about Entailment with Neural Attention

93 阅读 0 评论 62 点赞

我是靠谱客的博主纯真柜子，这篇文章主要介绍【论文笔记】Reasoning about Entailment with Neural AttentionReasoning about Entailment with Neural Attention，现在分享给大家，希望可以做个参考。

Reasoning about Entailment with Neural Attention

这篇论文主要讲了他们第一次应用深度学习取得了比现阶段人工特征更好的结果（201509），模型架构大体是:LSTM—Attention—FC分类
https://arxiv.org/pdf/1509.06664v1.pdf
在这里插入图片描述

LSTM层

他们使用两个不同的LSTM来分别对Premise和Hypothesis进行向前传播， $LSTM_{hypothesis}$ 的第一个中间状态 $c_0$ 是由 $LSTM_{premise}$ 的最后一个中间状态初始化的。他们的说法是，没有必要重复对Hypothesis进行encode（指将hypothesis句子经过和Premise同一个LSTM的处理称为encode），这样在 $LSTM_{hypothesis}$ 里，会更加关注与premise的语义关联的处理。

attention层

他们提出了两种方法

传统方法：将 $LSTM_{premise}$ 输出拼接为矩阵Y作为输入向量， $LSTM_{hypothesis}$ 的最后一个输出 $h_N$ 作为查询向量，使用加性模型计算attention:
$tanh(W^yY+W^hh_Nbigotimes e_L)$
$softmax(w^TM)$
$Yalpha^T$
其中 $⨂$ 操作是外积，作用等价于 $W^hh_Nin (k×1)$ 与一个 $1 \times L$ 维的纯1向量点乘

最后，通过如下计算得到用于分类的最终输出
$h^* = tanh(W^pr + W^xh_N)$
Word-by-word Attention：他们的想法是只利用最后一个输出hn作为查询会遇到LSTM的对前面输入记忆的瓶颈，于是迭代地对每一个 $LSTM_{hypothesis}$ 的输出都用上面的方法进行注意力计算，并在每次计算中使用了上一次计算的输出（即 $r_{t-1}$ )。最终得到的 $r_{L_h}$ 以同样的方式处理。
$M_t = tanh[W^yY+(W^hh_t+W^rr_{t-1}) bigotimes e_L]$
$alpha_t = softmax(w^TM_t)$
$r_t = Yalpha^T_L + tanh (W^tr_{t-1})$
$h^* = tanh(W^pr_L + W^xh_N)$