小白读论文之. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
这篇论文还是还是有许多人通读的,给几个我用来参考的链接:https://www.jianshu.com/p/7582df96b081 和https://www.pianshen.com/article/819194787/https://zhuanlan.zhihu.com/p/158985765首先先看一下网上的解析,对这篇文章有一个直接的认识。他的方法就是:使用cnn提取图像特征,并将softmax层之前的那一层vector作为encoder端的输出并送入decoder中,并使用LSTM对其