【论文阅读】Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval
文章目录阅读目标问题回答摘要引入方法网络输入视觉编码器EvE_vEv和文本编码器ElE_lEl文本龙骨KlK_lKl视觉龙骨KvK_vKv源原型网络PsP^sPs目标原型网络PtP^tPt子网络及输入输出最大化互信息阅读目标了解在跨模态检索中如何构建原型了解本文是如何应对non-iid问题的问题回答原型在本文中是一个线性映射层的参数,此映射层的输出代表原型表示给每个样本分配的概率,原型对照的基准是作者通过聚类自主构建的龙骨(聚类中心),而样本对照的基准则是龙骨对每个样本分配的概率最