【读】关系抽取—（1）Attention-Based Bidirectional Long Short-Term Memory Networks for Relation ClassificationAbstract1 Introduction2 Related work3 Model4 Experiments5 ConclusionLINKNOTE

242 阅读 0 评论 160 点赞

我是靠谱客的博主长情大叔，这篇文章主要介绍【读】关系抽取—（1）Attention-Based Bidirectional Long Short-Term Memory Networks for Relation ClassificationAbstract1 Introduction2 Related work3 Model4 Experiments5 ConclusionLINKNOTE，现在分享给大家，希望可以做个参考。

学习本无底，前进莫徬徨。

这是一篇Relation Classification相关的paper，出自于中科大自动化所 Zhou ，Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification。收录于ACL 2016。

Abstract

1 Introduction

3 Model

3.1 Word Embeddings

3.2 Bidirectional Network

3.3 Attention

3.4 Classifying

3.5 Regularization

4 Experiments

4.1 Dataset and Experimental Setup

4.2 Experimental Results

5 Conclusion

LINK

NOTE

待修改

本文主要做了三个方面的工作：

（1）基于注意力的双向长短期记忆网络（Att-BLSTM）来捕获句子中最重要的语义信息。

（2）使用词向量级别的attention机制的方法.

（3）句子级特征向量最终用于关系分类。

Abstract

关系分类是自然语言处理领域（NLP）的一项重要的语义处理任务。当前水平的系统仍然依赖于词汇资源，如WordNet或NLP系统，如依赖解析器和命名实体识别器（NER）来获得高级特性。另一个挑战是，重要的信息可以出现在句子的任何位置。为了解决这些问题，我们建议基于注意力的双向长短期记忆网络（Att-BLSTM）来捕获句子中最重要的语义信息。对SemEval-2010关系分类任务的实验结果表明，我们只用词向量级别的attention机制的方法，优于大多数现有的方法。

# 这里要写小评论，可是我不会改字体

1 Introduction

关系分类是在对许多NLP应用程序中寻找语义关系的任务，如信息提取（Wu and Weld, 2010），问题回答（Yao and Van Durme, 2014）。例如，下面的句子包含了一个关于名词的花和小教堂之间的实体-目的地关系的例子。

<e1>花</e1>被带入<e2>教堂</e2>。

<e1>，</e1>，<e2>，</e2>是四个位置指示器，指定了名词的开始和结束（Hendrickx等人，2009）。

传统的关系分类方法，从词汇资源中使用人工标注的特征，通常基于模式匹配，并取得了很高的性能(Bunescu and Mooney, 2005; Mintz et al., 2009; Rink and Harabagiu, 2010)）。这些方法的一个缺点是，许多传统的NLP系统被用来提取高级特性，比如语音标签的一部分、最短的依赖路径和命名实体，从而导致计算成本的增加和额外的传播错误。另一个缺点是，人工标注特征是很耗时间的，而且由于不同的培训数据集的覆盖率很低，所以在泛化方面表现不佳。

最近，深度学习方法提供了一种有效的方法来减少人工标注特征的功能 (Socher et al., 2012; Zeng et al., 2014)。然而，这些方法仍然使用词汇资源，如WordNet（Miller，1995）或NLP系统，如依赖解析器和NER，以获得高级特性。

本文提出了一种新的神经网络-BLSTM关系分类。我们的模型利用双向长短期记忆网络（BLSTM）的神经注意机制来捕捉句子中最重要的语义信息。该模型不使用来自词汇资源或NLP系统的任何特性。

本文的贡献是利用BLSTM与注意力机制，它可以自动聚焦于对分类有决定性影响的词语，在不使用额外知识和NLP系统的情况下，捕捉句子中最重要的语义信息。我们在SemEval-2010任务8数据集上进行实验，并获得84.0%的f1-分数，比现有的文献中大多数方法都要高。

本文的其余部分按如下方式构造。在第2部分中，我们回顾了有关关系分类的相关工作。第3部分详细介绍了我们的Att-BLSTM模型。在第4部分中，我们描述了实验评估的设置和实验结果。最后，我们在第5部分有了结论。

# 这里要写小评论，可是我不会改字体

多年来，提出了有关关系分类的各种方法。它们中的大多数都基于模式匹配，并应用额外的NLP系统来派生词法特性。一个相关的工作是由Rink和Harabagiu（2010）提出的，它利用从外部语料库获得的许多特性来支持向量机（SVM）分类器。

最近，深层神经网络可以自动学习基本功能，并已在文献中使用。曾等人（2014年）取得了最具代表性的进展，他利用卷积神经网络（CNN）进行关系分类。虽然CNN不适合学习远距离语义信息，所以我们的方法建立在循环神经网络（RNN）（Mikolov等人，2010）上。

Zhang和Wang（2015）提出了一项相关的工作，该工作使用双向RNN来学习原始文本数据的关系模式。尽管双向RNN可以访问过去和将来的上下文信息，但是由于梯度消失问题，上下文的范围是有限的。为了解决这个问题，Hochreiter和Schmidhuber（1997）引入了长短期记忆（LSTM）单元。

另一个相关的工作是由Yan等人（2015）提出的SDP-LSTM模型。该模型利用两个名词之间的最短的依赖路径（SDP），然后在SDP中使用LSTM单元获取异构的信息。虽然我们的方法将原始文本视为一个序列。

最后，我们的工作与Zhang等人（2015）提出的BLSTM模型有关。该模型利用NLP工具和词汇资源来获取单词、位置、POS、NER、依赖性解析和上位词（指概念上外延更广的主题词。例如：”花”是”鲜花”的上位词，”植物”是”花”的上位词，”音乐”是”mp3”的上位词。）特性，以及LSTM单元，实现了与当前水平系统相比较的结果。然而，与Zhang等人（2015）所使用的复杂特性相比，我们的方法将四个位置指标<e1>、</e1>、<e2>、</e2>作为单个词，并将所有单词转换成单词向量，形成一个简单但相互竞争的模型。

3 Model

在这一节中，我们将详细地介绍该模型。如图1所示，本文提出的模型包含五个组件：

（1）输入层：该模型的输入句;

（2）嵌入层：将每个单词映射到一个低维向量;

（3）LSTM层：利用BLSTM从step（2）获得高级特性;

（4）注意层：产生一个重量矢量，并将每个时间步骤的单词级别的特征合并到一个句子级的特征向量中，通过增加权重向量;

（5）输出层：句子级特征向量最终用于关系分类。

这些组件将在本节中详细介绍。

3.1 Word Embeddings

3.2 Bidirectional Network

LSTM单元首先由Hochreiter和Schmidhuber（1997）提出，以克服梯度消失问题。其主要思想是引入一种自适应的控制机制，它决定了LSTM单元保持前一个状态的程度，并记住当前数据输入的提取特性。然后，提出了许多LSTM变体。我们采用了Graves等人（2013）所介绍的一种变体，该变种将从常量错误木马（CEC）到相同内存块的门上添加了加权的窥视孔连接（？？翻译成什么词呢？）。通过直接使用当前的细胞状态来产生门度，窥视孔连接允许所有的门进入细胞（即当前的细胞状态），即使输出门关闭了(Graves, 2013)。

通常，四个组件组合了基于lstm的递归神经网络：一个输入门it和相应的权重矩阵Wxi、Whi、Wci、bi；一个遗忘门ft和相应的权重矩阵Wxf、Whf、Wcf、bf；一个输出门ot和相应的权重矩阵Wxo、Who、Wco、bo权重矩阵，所有这些门将生成一些阈，使用当前输入xi，上一步生成的状态hi-1,和当前状态的细胞ci-1(窥视孔)，决定是否要输入，之前忘记记忆存储和输出后生成的状态。就像下面这些方程所证明的那样：

因此，目前的细胞状态ct将通过使用前一个细胞状态和细胞产生的当前信息来计算加权总和 (Graves, 2013)。

对于许多序列建模任务来说，访问未来和过去的上下文是有益的。然而，标准的LSTM网络以时间顺序处理序列，它们忽略了未来的上下文。双向LSTM网络通过引入第二个层来扩展单向的LSTM网络，在这个层中隐藏的隐藏连接以相反的时间顺序流动。因此，该模型能够利用过去和未来的信息。

在本文中，我们使用BLSTM。如图1所示，该网络包含两个用于左右顺序上下文的子网络，分别是向前和向后传递。第ith个单词的输出如下所示

在这里，我们使用元素求和来组合前进和向后传递输出。

3.3 Attention

注意力的神经网络最近在各种各样的任务中取得了成功，从问答、机器翻译、语音识别到图像字幕（Hermann et al., 2015; Bahdanau et al., 2014; Chorowski et al., 2015; Xu et al., 2015）。在本节中，我们提出了关系分类任务的注意机制。让H成为一个由LSTM层产生的输出向量[h1,h2,...,hT]，T是句子长度。句子的表示r是由这些输出向量的加权和构成的：

H属于R^dw*T，dw是向量的维数，w是一个经过训练的参数向量，而wT是a的转置。w，α，r的维数分别是dw，T，dw。

我们得到了用于分类的最后的句子对表示：

3.4 Classifying

在这个设置中，我们使用一个softmax分类器来预测一个句子s的离散集合Y的标签Y。分类器将隐藏状态h*作为输入：

损失函数是真正类标签^y的负对数似然函数：

本文将dropout与L2正则化结合起来，以缓解过拟合。

3.5 Regularization

由（Hinton等人，2012年）提出的Dropout现象，在向前传播过程中，通过从网络中随机省略特征检测器来防止隐藏单元的协同适应。我们在嵌入层、LSTM层和倒数第二层中使用了Dropout。

另外，我们还限制了权重矢量的L2正则化，当w=s时，在梯度下降步骤之后，如方程式15所示。训练详情将在第4.1节进一步介绍。

4 Experiments

4.1 Dataset and Experimental Setup

实验是在SemEval-2010任务8数据集（Hendrickx等人，2009年）上进行的。这个数据集包含9个关系（有两个方向）和一个无定向的其他类。有10717个带注释的例子，包括8000个用于培训的句子，2717个用于测试。我们采用官方的评估指标来评估我们的系统，它是基于9个实际关系的宏观平均F1-得分（不包括其他关系），并考虑了方向。

为了与Zhang和Wang（2015）的工作相比较，我们使用了由Turian等人（2010）（50维）提出的相同的词向量来初始化嵌入层。此外，与Zhang等（2015）的工作相比，我们还使用了由Pennington等人（2014年）预先训练的100维字向量。

由于没有官方的开发数据集，所以我们随机选择了800个句子进行验证。我们的模型的超参数被调优到每个任务的开发集。我们的模型使用AdaDelta（Zeiler，2012）进行了训练，其学习速度为1.0，而minibatch为10。该模型参数被强度为10^-5个的L2正则规范化。我们评估了dropout层、dropout LSTM层和dropout the penultimate 层的影响，当dropout分别为0.3、0.3、0.5时模型的性能更好。我们模型中的其他参数是随机初始化的。

4.2 Experimental Results

表1比较了我们的工作原理和其他最先进的关系分类方法。

SVM：这是在SemEval-2010的最高执行系统。Rink和Harabagiu（2010）利用了各种人工标注特征的功能，并使用SVM作为分类器。他们的得分为82.2%。

CNN：Zeng等人（2014）将句子作为连续的数据处理，并利用卷积神经网络来学习句子层次的特征;他们还使用一个特殊的位置向量来表示每个单词。然后，句子级和词汇特征被连接到一个单一的向量中，并被输入到一个用于预测的softmax分类器中。该模型的f1得分为82.7%。

RNN：Zhang和Wang（2015）采用双向的网络，有两个不同维度的词向量进行关系分类。他们使用Mikolov等人（2013年）预先训练的300维字矢量，取得了82.8%的f1分数，并使用了由Turian等人（2010年）预先训练的50维字矢量的f1得分为80.0%。我们的模型具有相同的50维字向量，达到了82.5%，比他们的多了2.5%。

SDP-LSTM:Yan等人（2015）利用四个不同的渠道在SDP中拾取异质，他们获得了83.7%的f1。与它们的模型相比，我们对原始文本作为序列的模型更简单。

BLSTM:Zhang等人（2015）使用了来自NLP工具和词汇资源的许多特性，使用双向的LSTM网络来学习句子级别的特性，并且在SemEval-2010任务8数据集上获得了最先进的性能。我们使用相同的单词向量的模型得到了一个非常相似的结果（84.0%），并且我们的模型更加简单。

我们提出的这个模型产生了84.0%的F1。它优于大多数现有的竞争方法，而不使用诸如WordNet或NLP系统之类的词汇资源，如依赖解析器和NER来获得高级特性。