多模态 Generalized Visual Language Models
点击上方“迈微AI研习社”,选择“星标★”公众号重磅干货,第一时间送达多年来,人们一直在研究处理图像以生成文本,例如图像字幕和视觉问答。传统上,此类系统依赖对象检测网络作为视觉编码器来捕获视觉特征,然后通过文本解码器生成文本。鉴于现有的大量文献,在这篇文章中,我想只关注解决视觉语言任务的一种方法,即扩展预训练的通用语言模型以能够消费视觉信号。我将此类视觉语言模型 (VLM) 大致分为四个类别:将图...