《A Self-Attention Setentence Embedding》阅读笔记及实践
算法原理本文利用self-attention的方式去学习句子的embedding,表示为二维矩阵,而不是一个向量,矩阵中的每一行都表示句子中的不同部分。模型中使用了self-attention机制和一个特殊的regularization term。 假设我们有一个句子SSS, 包含nnn个单词 S=(w1,w2,w3,...,wn)S=(w1,w2,w3,...,wn)S = (w_1...