attention注意力机制的理解及简单实现(keras实现版本)
attention 的本质:其实就是一个加权求和。问题:k 个d 维的特征向量h i (i=1,2,...,k) 整合这k 个特征向量的信息,变成一个向量h ∗ (仍是d 维)解决方法 求平均值 -------(mean pooling) 加权平均,即(α i 为权重): h ∗ =∑ k i= α i h i 而attention所做的事情就是如何将α i 合理...