Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
概述
作者提出了一种基于注意力机制的双向LSTM框架用于关系抽取。方法的主要创新点引入了注意力机制。
神经网络框架

框架非常简单,也是作者一直强调的。Embedding Layer、LSTM layer、Attention Layer。Embedding Layer,跟通常的Embedding没有什么区别,首先使用训练好的word vector初始化,然后在训练过程中微调。
LSTM Layer
文章中使用的是LSTM的变体,其与LSTM的区别如下图,思想是各个门也将上一个记忆单元考虑上。

计算公式如下

Attention Layer
attention层详细可以完全通过公式说明


H是BILSTM的输出,size为 v × T vtimes T v×T, v是词向量的维度, T是序列的长度,H首先通过tanh函数激活得到M
再通过全连接层+softmax层得到 α alpha α, w的size是 v × 1 vtimes 1 v×1, 所以 α alpha α的size是 1 × T 1times T 1×T。最后H乘以权重,得到
的输出r, size为 v × 1 v times 1 v×1。最后经过tanh函数激活得到最后输出h, size为 v × 1 v times 1 v×1。得到输出后,直接作为
softmax层的输入,就可以得到相应预测标签的输出。
说明
作者嵌入实体位置信息,是通过改变原始序列。在实体的开始和结尾加入分隔符。

参考
基于注意力机制的双向LSTM关系抽取理解
最后
以上就是独特冷风最近收集整理的关于Attention-Based Bidirectional Long Short-Term Memory Networks for的全部内容,更多相关Attention-Based内容请搜索靠谱客的其他文章。
发表评论 取消回复