概述
1. 概述
本篇论文模型框架共有五部分:
第一:输入层,输入的为每个句子
第二:嵌入层,将句子中的字转换为向量
第三:lstm层
第四:attention层,通过乘以权重向量,产生新的权重向量,并将每个时间步长的词级特征合并为句子级特征向量;
第五:输出层
2. 词嵌入
词嵌入的基本原理为
其中
e
i
e_i
ei即词的向量,他是通过一个矩阵W与一个单位矩阵相乘得到。
bi-lstm
本文使用双向的lstm模型,在lstm框架中,每一层的公式如下:
lstm结果是前向网络和反向网络的输出相加,并加得到的最终结果传入attention当中
3. attention
attenttion机制简单来说就是赋予权重,在本文中,attention公式如下:
其中H就是LSTM层产生向量[h1,h2,…。。 ,hT]构成的矩阵。
ω
omega
ω为参数矩阵。
4. 输出
本文在最终输出时,使用了softmax激活函数得到最终每个类别的概率。
最后
以上就是积极背包为你收集整理的Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification解读1. 概述2. 词嵌入bi-lstm3. attention4. 输出的全部内容,希望文章能够帮你解决Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification解读1. 概述2. 词嵌入bi-lstm3. attention4. 输出所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复