概述
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
概述
作者提出了一种基于注意力机制的双向LSTM框架用于关系抽取。方法的主要创新点引入了注意力机制。
神经网络框架
框架非常简单,也是作者一直强调的。Embedding Layer、LSTM layer、Attention Layer。Embedding Layer,跟通常的Embedding没有什么区别,首先使用训练好的word vector初始化,然后在训练过程中微调。
LSTM Layer
文章中使用的是LSTM的变体,其与LSTM的区别如下图,思想是各个门也将上一个记忆单元考虑上。
计算公式如下
Attention Layer
attention层详细可以完全通过公式说明
H是BILSTM的输出,size为 v × T vtimes T v×T, v是词向量的维度, T是序列的长度,H首先通过tanh函数激活得到M
再通过全连接层+softmax层得到 α alpha α, w的size是 v × 1 vtimes 1 v×1, 所以 α alpha α的size是 1 × T 1times T 1×T。最后H乘以权重,得到
的输出r, size为 v × 1 v times 1 v×1。最后经过tanh函数激活得到最后输出h, size为 v × 1 v times 1 v×1。得到输出后,直接作为
softmax层的输入,就可以得到相应预测标签的输出。
说明
作者嵌入实体位置信息,是通过改变原始序列。在实体的开始和结尾加入分隔符。
参考
基于注意力机制的双向LSTM关系抽取理解
最后
以上就是独特冷风为你收集整理的Attention-Based Bidirectional Long Short-Term Memory Networks for的全部内容,希望文章能够帮你解决Attention-Based Bidirectional Long Short-Term Memory Networks for所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复