论文浅尝｜《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》导读一、选题背景二、贡献三、基本概念四、模型构建五、实验开展六、结果

215 阅读 0 评论 142 点赞

我是靠谱客的博主直率柜子，这篇文章主要介绍论文浅尝｜《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》导读一、选题背景二、贡献三、基本概念四、模型构建五、实验开展六、结果，现在分享给大家，希望可以做个参考。

导读

这是一篇2016年的ACL论文，题目为《Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification》，介绍了基于注意力机制的双向长短时记忆关系分类网络。

这篇文章的代码开放可用，在https://paperswithcode.com/dataset/semeval-2010-task-8可以下载。

一、选题背景

关系分类是自然语言处理领域中一项重要的语义处理任务。但即使是目前最先进的系统仍然面临一定的局限：

依赖语法分析以及命名实体识别（NER）获得高级特征。
重要信息可能出现在句子中的任何位置。

二、贡献

为了解决上述问题，作者提出了基于注意力机制的双向长短时记忆网络来获取句子中最重要的语义信息，它不依赖于任何词汇资源或者系统特征。在SemEval-2010关系分类任务上的实验结果F1值达到了84.0%，表明本文提出的方法优于现有只使用词向量的大多数方法。

三、基本概念

1. 关系分类

关系分类的任务是发现名词对之间的语义关系，这对于许多NLP应用都非常有用，例如信息提取、问答系统等。
作者举了如下例子，Example：⟨e1⟩Flowers⟨/e1⟩are carried into the⟨e2⟩chapel⟨/e2⟩。其中⟨e1⟩,⟨/e1⟩,⟨e2⟩,⟨/e2⟩指示了句子中名词对的位置，传统的关系分类方法利用词汇资源中的手工特征，通常基于模式匹配，并取得了较好的性能。

2.现有方法的弊端

许多传统的NLP系统被用于提取高级特征，例如语音标签、最短依赖路径和命名实体，这会导致计算成本增加和额外的传播错误。
手动设计特征耗时，而且由于不同训练数据集的覆盖率较低，模型的泛化性能较差。
虽然有一些深度学习的方法可以用于减少手工特征，但这些方法仍然依赖词汇资源。

四、模型构建

本文构建了Att-BLSTM模型，共包含五个部分：
（1）输入层：该模型的输入句子；
（2）嵌入层：将每个单词映射成低维向量；
（3）LSTM层：利用BLSTM从步骤（2）获得高水平的特征；
（4）注意力层：生成一个权重向量，通过乘以权重向量，将每个时间步的单词级特征合并成句子级特征向量；
（5）输出层：最终使用句子级特征向量进行关系分类。
在这里插入图片描述

1. 词嵌入

给定一个由T个单词组成的句子S={x1，x2，…，xT}，每个单词xi都被转换成实值向量ei。对于S中的每个单词，我们首先查找嵌入矩阵WWRD∈Rdw | V |，其中V是固定大小的词汇表，dw是单词嵌入的大小。矩阵WWRD是一个要学习的参数，DW是一个由用户选择的超参数。通过矩阵向量积将一个单词xi转换成它的词嵌入xi。
在这里插入图片描述
Vi是一个大小为| V |的向量，其在索引ei处的值为1，在所有其他位置的值为0。然后这些内容作为一个实值向量embs={e1，e2，…，eT}传入下一层。

2. LSTM单元

LSTM单元最早是为克服梯度消失问题而提出的，它引入一种自适应的控制机制使其可以记忆前一个状态并记忆当前数据输入的特性。本文采用的是一种变体，一般来讲包含一下四种组成，公式如图所示。

一个输入门it和相应的权重矩阵Wxi，Whi，Wci，bi
一个遗忘门ft和相应的权重矩阵Wxf、Whf、Wcf、bf
一个输出们ot和相应的权重矩阵Wxo, Who, Wco, bo
以上门的生成：如当前输入xi，上一步输入产生的hi-1，当前peephole ci-1。用于决定是否接收当前输入、是否忘记之前的存储、是否输出之后的生成。

从(5)可以看出，当前单元状态ct通过使用之前的单元状态和单元生成的当前信息计算加权和来生成
在这里插入图片描述

3. 双向网络

相较于LSTM单元，BLSTM模型的好处在于能够利用过去和未来的信息。本文的双向网络包含两个子网络，分别用于左序列上下文和右序列上下文，分别为正向传递和反向传递。第i个词的输出如下图所示。
在这里插入图片描述

4. 注意力机制

本文将注意力机制应用于关系识别任务。H是LSTM层输出的向量[h1, h2, . . . , hT]组成的矩阵，其中T是句子长度。句子的表示由这些输出向量的加权和构成，在这里H∈Rdw×T，dw是词向量的维数，w是经过训练的参数向量，wT是转置。w，α，r的维度分别是dw，T，dw。
在这里插入图片描述
本文从中获得用于分类的最终句子对表示：