概述
CVPR 2017
Semantic Compositional Networks(SCN)有效的组合各个标签,来生成描述图像整体意义的描述。《Semantic Compositional Networks for Visual Captioning》也是CNN-LSTM结构,但SCA扩展传统LSTM的每个权重矩阵为依赖于标签的权重矩阵的集成,这取决于标签存在于图像中的概率。
给定图片I,描述,其中是热独编码,词汇表大小为V,视觉特征为。第t个描述单词被线性嵌入为维的实值向量,是需要学习的词嵌入向量。给定图像特征,描述X的概率为:
每个条件被指定为softmax(Vht),其中通过递归更新,被指定为零向量。对于带有简单转换函数的RNN,定义为:
其中,1表示只是函数,特征向量只在开始时被馈送给RNN,W定义为输入矩阵,U为递归矩阵。
SCN扩展卷积RNN的每个权重矩阵为一组依赖于标签的权重矩阵的一个集成,与标签存在于图像中的概率相关。SCN-RNN计算为:
其中,,与是根据语义概念向量s,依赖标签的权重矩阵集成。
给定,定义两个权重张量, , ,,则
其中,是s中第k个元素,、是、的二维切片。
该方法参数的数量与K成正比,对比较大的K难以实现,因此作者因式分解和:
其中,,,, ,,, 是因子数量。将上式代入,则用RNN获得SCN:
其中,表示基于元素的相乘,、在所有描述上共享,有效的捕获常见的语言模式。
使用LSTM单元归纳SCN-RNN,定义为:
对于*=I,f,o,c,定义:
最终目标函数为:
最后
以上就是忧伤戒指为你收集整理的《Semantic Compositional Networks for Visual Captioning》论文笔记的全部内容,希望文章能够帮你解决《Semantic Compositional Networks for Visual Captioning》论文笔记所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复