2024年09月归档_清爽悟空的博客_WEB实战,网站优化,Linux服务器,python编程,c,vmware服务器虚拟机重新安装系统教程,例题,计算机视觉领域博主

ViLT Vision-and-Language Transformer Without Convolution or Region Supervision0.摘要1.引言2.背景知识3.方法部分4.实验5.结论

Vision and Language Pre-training(VLP)已经已经在视觉语言的多模态下游任务中发展的很好。然而，当前VLP的工作主要集中在图像特征抽取上，一般来讲，图像特征抽取的越好，下游任务中的表现就越好。但是，现在主要有两个问题，一是效率太低，速度太慢，抽取图像特征花费大量时间，比多模态融合都多。我们应该花费更多时间在融合上。第二个是，你用一个预训练好的模型去抽取特征，表达能力受限。目标检测数据集不够大，规模不够大。如果模型不是端到端学习，只是从预训练模型抽取特征，大概率来说

计算机视觉 2024-09-17 178 点赞 2 评论 269 浏览

清爽悟空

ViLT Vision-and-Language Transformer Without Convolution or Region Supervision0.摘要1.引言2.背景知识3.方法部分4.实验5.结论

他的专栏

他的归档

热门文章