我是靠谱客的博主 爱笑帅哥,最近开发中收集的这篇文章主要介绍image caption研究进展,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

主要介绍image caption最近的几篇文章,及其相关的应用。

  • 1.Google NIC,Show and Tell: A Neural Image Caption Generator [CVPR2015]。code
  • 2.Hard(soft)-Attention,Show, Attend and Tell: Neural Image Caption Generation with Visual Attention [ICML2015]。大神实现code
  • 3.Review Net,Review Networks for Caption Generation [NIPS2016]。code
  • 4.Adaptive Attention,Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning [CVPR2017]。code
  • 5.SCST,Self-critical Sequence Training for Image Captioning [CVPR2017]。大神实现code
  • 6.LSTM-A,Boosting Image Captioning with Attributes [ICCV2017]。
  • 7.captionGAN,Speaking the Same Language:Matching Machine to Human Captions by Adversarial Training [ICCV2017]。code
  • 8.Remote Sensing Caption,Exploring Models and Data for Remote Sensing Image Caption Generation [TGARS2017]。homepage
  • 9.Medical Image Caption,On the Automatic Generation of Medical Imaging Reports [ACL2018]。
  • 10.BUTD_Attention,Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering [CVPR2018]。code

文章要做的事情(image captioning):
输入:image     输出:sentence

以Google NIC中可视化的实验结果为例,image captioning的例子如下所示。
show_and_tell_example

Google NIC
Google NIC的framework如下所示。
![show_and_tell_framework]](https://img-blog.csdn.net/20180612164203650?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2Z1eGluNjA3/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
这篇文章是基于encoder-decoder结构方法,encoder端用CNN提取图像的特征,然后再将这个特征输入到decoder端,通过LSTM decoder出word level的feature,最后利用softmax对这个feature将分类,即可以产生文本,文章中提到的几个点。

  • 在训练的过程中采用BeamSearch,beam_size选择要合理,并不是越大越好。
  • 将前一个状态的word level的feature输入到LSTM的时候,需要用word-embedding。
  • 文章明确指出,训练的数据越多对image captioning的实验结果就越好,文章还说要是有用单模态的数据做无监督的image captioning的话,将会非常有意义。
  • 这个方法能产生diversity的caption,文章中列举出了一个生成的文本,准确,但是ground-truth并不存在。

Hard(soft)-Attention
Hard(soft)-Attention的framework如下所示。
Hard_soft_Attention_framework
这篇文章的束腰思想是在14x14x512(196x512)这样的卷积块上面加入attention的机制,即学习196(可以理解图像中的区域的个数)个权重,文章中分别采用了soft-attention和hard-attention的方式。soft-attention是学习196个加权和为1的权重,hard-attention是选择196个中可能行最大的区域,这个区域的权重为1,其他地方的权重为0。

最后

以上就是爱笑帅哥为你收集整理的image caption研究进展的全部内容,希望文章能够帮你解决image caption研究进展所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(68)

评论列表共有 0 条评论

立即
投稿
返回
顶部