Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 论文研读0. 个人浅谈1. 摘要2. 引言3. 相关工作4. 模型5. 实验6. 结论

62 阅读 0 评论 41 点赞

我是靠谱客的博主唠叨龙猫，这篇文章主要介绍Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 论文研读0. 个人浅谈1. 摘要2. 引言3. 相关工作4. 模型5. 实验6. 结论，现在分享给大家，希望可以做个参考。

0. 个人浅谈

Attention是在2014年提出的（paper为：Recurrent Models of Visual Attention，下载地址为https://papers.nips.cc/paper/5542-recurrent-models-of-visual-attention.pdf），而本文的发表时间是在2016年，它是ACL会议(NLP国际顶级会议之一)的录用论文（具有一定的研究意义），显而易见的是它是把attention应用到到NLP的关系抽取中的一个成功实践。所以对于AI学习者而言，学习最新的技术，然后将其应用到自己所在的工作领域，这是一件非常有趣的事情。

1. 摘要

关系抽取是自然语言处理领域中一个非常重要的语义处理任务（除了语义处理，还有其他任务吗？）。然而，已有的系统使用词法资源（如WordNet）或者依赖于解析器和命名实体识别获得的高级特征。另外一个挑战是，重要的信息可能出现在句子中的任意位置。为了解决这些问题，我们提出了基于注意力机制的LSTM网络，从而可以获取句子中最重要的语义信息。我们采用的实验数据是SemEval-2010关系分类任务数据，实验结果表明我们的方法优于现有的方法。

2. 引言

关系分类是寻找名词对之间的语义关系任务，它对于很多NLP应用都很有用，例如信息提取、知识问答。例如，下面的句子包括了Flowers和chapel的实体对。

⟨e1⟩ Flowers ⟨/e1⟩ are carried into the ⟨e2⟩ chapel ⟨/e2⟩.

其中⟨e1⟩, ⟨/e1⟩, ⟨e2⟩, ⟨/e2⟩ 是位置的标识符，它标识了实体的开始和结束。传统的关系分类是从词法资源中构造手工造特征，然后进行模式匹配，它的效果还可以。该方法的问题在于，很多的NLP系统提取了一些高级特征，例如词性标注、最短依赖路径、命名实体识别，但这会导致计算成本和误差的增大。另外一个缺点在于，手造特征不仅耗时，而且通用性较差。最近，部分研究者采用了深度学习方法，从而降低了手造特征的数量。然而这些方法还是使用了词法资源，例如WordNet或者其他高级特征。本文提出了一种新型的网络结构，从而可用于关系分类。该方法不需要任何词法资源。

本文的贡献在于自动提取重要的单词，而没有应用额外的知识和NLP系统。在SemEval-2010第八个任务的数据集上进行实验，F1 score为84%，超过了现有的方法。

3. 相关工作

这些年来，产生了各种用作关系分类的方法。大多数的是采用模式匹配的方法，并且利用了额外的NLP系统去提取词法特征。其中一个方法是由Rink and Harabagiu在2010年提出的，该方法是从其他语料库提取多个特征，然后使用SVM进行分类。

近些年来，深度神经网络自动学习特征，并且在各种文献中使用。最有代表性的是由Zeng在2014年提出的，他使用CNN进行关系分类。然而CNN不太适合用来学习长距离的语义信息，因此我们的方法是基于RNN。

其中和RNN相关的一个工作是由 Zhang和Wang在2015年提出的，使用双向RNN从原始文本数据中提取特征。尽管双向RNN可以提取双向的上下文信息，但它容易产生梯度消失的问题。为了克服这个问题，在1997年，Hochreiter和Schmidhuber提出了长短期记忆网络。

在2015年Yan也提出了SDP-LSTM模型。该模型利用了两个实体的最短依赖路径，沿着该路径使用LSTM单元提取异构信息。然而我们的方法针对的是原始文本数据。

而我们的工作是基于Zhang提出的双向LSTM模型。该模型利用了NLP的工具和词法资源去获取单词、位置、词性标注、命名实体识别、依赖解析和上位词特征，然后输入到LSTM单元，最终实现了很好的效果。然而他提出的特征过于复杂，而我们的方法把四个位置标志（ ⟨e1⟩,⟨/e1⟩,⟨e2⟩,⟨/e2⟩ ）作为单独的词，并且把所有的词表示成词向量，虽然简单但效果也很好。

4. 模型

在这里插入图片描述
在本节中，我们提出了基于注意力机制的双向LSTM模型。该模型包括5个组成部分：

输入层：将句子输入模型。
嵌入层：把每个词映射到低维的向量。
LSTM层：使用双向LSTM逐步获取高级特征。
注意力层，产生一个权重向量，然后通过把权重向量和每个时间步长的词特征相乘，合并为句子级别的特征向量。
输出层，句子级别的特征向量最终用来特征分类。

4.1 Word Embeddings

给定一个由若干个词组成的序列，将每个词转换成一个实数向量。通过查表得到句子的嵌入矩阵 $W^{wrd}$ 。该矩阵W是学习的参数，每个词词嵌入的维度是一个超参数，需要用户提前指定。我们把每个单词 $x_i$ 转换为词嵌入 $e_i$ ，是通过矩阵向量运算得到的。
$e_i = W^{wrd}v_i$
其中 $v_i$ 是一个独热向量，只在 $e_i$ 的位置为1，其它位置均为0。所以句子可以表示为向量 $emb_s={e_1,e_2,dots,e_T}$ 。

4.2 双向LSTM网络

LSTM单元是由Hochreiter和Schmidhuber在1997年提出的，它是为了解决梯度消失的问题（并不能解决梯度爆炸的问题）。它的主要想法是采用适应门机制，它决定LSTM单元保持之前状态和从当前输入数据从提取特征的程度。有很多LSTM的变种也被提出了，如GRU，它是把输入门和遗忘门合并为了一个门。
具体步骤就不做阐述了，可参考链接https://blog.csdn.net/herosunly/article/details/89554214 。值得注意的是，最终是把双向LSTM的输出加到了一起。
在这里插入图片描述

4.3 Attention

基于注意力机制的神经网络在很多任务中都取得了极大的成功，如知识问答，机器翻译等。在这个小节中，我们提出了关系分类任务中的注意力机制。假设H是由LSTM产生的多个向量组成的，即 $[h_1,h_2,dots,h_T]$ ，其中T是句子的长度（Pytorch文档中RNN的输出维度为output of shape (seq_len, batch, num_directions * hidden_size，其中seq_len指代的就是句子的长度）。句子的表示是由这些输出向量的加权和。
$M = t a n (H)$ $=softmax(W^TM)$ $r=Halpha^T$
我们获取句子级别的特征用来进行分类：
$h^∗ = tanh(r)$