我是靠谱客的博主 忧伤戒指,最近开发中收集的这篇文章主要介绍《Semantic Compositional Networks for Visual Captioning》论文笔记,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

CVPR 2017

Semantic Compositional Networks(SCN)有效的组合各个标签,来生成描述图像整体意义的描述。《Semantic Compositional Networks for Visual Captioning》也是CNN-LSTM结构,但SCA扩展传统LSTM的每个权重矩阵为依赖于标签的权重矩阵的集成,这取决于标签存在于图像中的概率。

给定图片I,描述,其中是热独编码,词汇表大小为V,视觉特征为。第t个描述单词被线性嵌入为维的实值向量是需要学习的词嵌入向量。给定图像特征,描述X的概率为:

每个条件被指定为softmax(Vht),其中通过递归更新,被指定为零向量。对于带有简单转换函数的RNN,定义为:

其中,1表示只是函数,特征向量只在开始时被馈送给RNN,W定义为输入矩阵,U为递归矩阵。

SCN扩展卷积RNN的每个权重矩阵为一组依赖于标签的权重矩阵的一个集成,与标签存在于图像中的概率相关。SCN-RNN计算为:

其中,是根据语义概念向量s,依赖标签的权重矩阵集成。

给定,定义两个权重张量, , ,则

其中,是s中第k个元素,的二维切片。

该方法参数的数量与K成正比,对比较大的K难以实现,因此作者因式分解

其中,, , 是因子数量。将上式代入,则用RNN获得SCN:

其中,表示基于元素的相乘,在所有描述上共享,有效的捕获常见的语言模式。

使用LSTM单元归纳SCN-RNN,定义为:

对于*=I,f,o,c,定义:

最终目标函数为:

最后

以上就是忧伤戒指为你收集整理的《Semantic Compositional Networks for Visual Captioning》论文笔记的全部内容,希望文章能够帮你解决《Semantic Compositional Networks for Visual Captioning》论文笔记所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(68)

评论列表共有 0 条评论

立即
投稿
返回
顶部