论文阅读笔记 | (TIP 2018) Object-Part Attention Model for Fine-grained Image ClassificationAbstractIntroductionOPAM APPROACH

248 阅读 0 评论 164 点赞

我是靠谱客的博主威武仙人掌，这篇文章主要介绍论文阅读笔记 | (TIP 2018) Object-Part Attention Model for Fine-grained Image ClassificationAbstractIntroductionOPAM APPROACH，现在分享给大家，希望可以做个参考。

论文来自北京大学计算机科学技术研究所多媒体信息处理研究室(Multimedia Information Processing Lab, 简称MIPL)，做细粒度图像分类。

论文下载：Object-Part Attention Model for Fine-grained Image Classification

知乎专栏计算机视觉一隅，文章TIP 2018 Object-Part Attention Model for FGVC

Abstract

细粒度图像分类（Fine-grained Image Classification）是识别属于相同基本级别类别（basic-level category）的数百个子类别（subcategories），例如属于鸟类的200个子类别，由于类内差异大和类间差异小，这是非常具有挑战性的。

现有方法通常首先定位对象或部分（locate the objects or parts)，然后区分图像属于哪个子类别。但是，它们主要有两个局限:

依赖大量劳动力的对象或部分注释(object or part annotations)。
忽略对象与其各部分之间以及这些部分之间的空间关系。

这两者对于找到辨别部分都非常有帮助。

因此，本文提出了弱监督细粒度图像分类的对象注意模型（OPAM），主要的新颖性是：

Object-part attention model集成了两级注意：对象级注意定位图像中的对象，部分级注意选择对象的判别部分。两者共同用于学习多视图和多尺度特征，以增强他们的相互促进。
Object-part spatial constraint model结合了两个空间约束：对象空间约束确保所选部分具有高度代表性，部分空间约束消除冗余并增强对所选部分的判别。两者共同用于利用细微和局部差异来区分子类别。

重要的是，文章提出的方法中既没有使用对象也没有使用部分注释，这避免了标签的大量劳动力消耗。在4个广泛使用的数据集上与10种以上最先进的方法相比，文章的OPAM方法实现了最佳性能。

Introduction

细粒度图像分类极具挑战性，旨在识别相同基本类别下的数百个子类别，例如数百个鸟类，汽车，宠物，花卉和飞机的子类别。

基本级和细粒度图像分类的区别如图1所示。细粒度图像分类是一项非常重要的任务，具有广泛的应用，如自动驾驶，生物保护（biological conservation）和癌症检测。图2显示了相同子类别中的大方差（variance）和不同子类别之间的小方差，并且人类很难识别数百个子类别，例如200个鸟类别或196个汽车子类别。

由于物体外观的微小差异，细微和局部差异是细粒度图像分类的关键点，例如鸟的背部的颜色和羽毛纹理。由于这些微妙和局部差异位于判别对象和部分，大多数现有方法通常遵循这样一个策略，即定位图像中的对象或部分，然后区分图像属于哪个子类别。

为了定位判别对象和部分，通常，首先执行通过自下而上处理（bottom-up process）生成具有高对象性（high objectness）的图像块（image patches），这意味着所生成的块包含一个或多个判别对象或部分。选择性搜索（Selective search）是一种无监督的方法，可以生成数千个这样的图像块。由于自下而上的过程具有高召回率但是精度低，因此必须去除噪声图像块并保留包含对象或有判别部分的图像块，这可以通过自上而下的注意模型来实现。在细粒度图像分类的上下文中，找到对象和判别部分可以被视为两级注意过程（two-level attention process），其中一个是对象级别（object-level）而另一个是部分级别（part-level）。直观的想法是使用对象注释（即，对象的边界框）用于对象级注意和部分注释（即，部分位置）用于部分级注意。大多数现有方法依赖于对象或部分注释来寻找对象或判别部分，但这种标记耗费大量劳动力。这是第一个限制。

为了解决上述问题，研究人员开始关注如何在弱监督环境下达到良好的性能，即在训练和测试阶段都不使用对象或部分注释。 Yu Zhang;Xiushen Wei等人[14]提出通过利用部分集群中的有用信息来选择判别部分。Xiaopeng Zhang等人[7]提出了一种自动细粒度图像分类方法，结合深度卷积滤波器用于部分选择和描述（both part selection
and description）。然而，当他们选择辨别部分时，对象及其部分之间以及这些部分之间的空间关系被忽略，但是它们都非常有助于找到判别部分。这导致所选择的部分：（1）具有大面积的背景噪声和小面积的对象区域，（2）彼此具有大的重叠，产生冗余信息。这是第二个限制。

为了解决上述两个局限性，本文提出了弱监督细粒度图像分类的对象 - 部分注意模型（OPAM）。其主要的新颖性和贡献可归纳如下：

Object-Part Attention Model. 大多数现有工作依赖于对象或部分注释，而标签则耗费大量人力。为了解决这个重要问题，文章提出了弱监督细粒度图像分类的对象 - 部分注意模型，以避免使用对象和部分注释，并向实际应用迈进。它集成了两级注意力：

Object-level attention model利用CNN中的全局平均池化（global average pooling）来提取用于定位图像对象的显著性映射（saliency map），即学习对象特征。
Part-level attention model首先选择判别部分，然后基于神经网络的聚类模式对齐部分（aligns the parts），即学习细微和局部特征。

Object-level attention model侧重于representative object appearance，而Part-level attention model侧重于区分子类别之间的部分特定差异。它们共同用于促进多视图和多尺度特征学习，并增强它们的相互促进以实现细粒度图像分类的良好性能。

Object-Part Spatial Constraint Model. 大多数现有的弱监督方法[7]，[14]忽略了对象及其各部分之间以及这些部分之间的空间关系，这两者对于判别部分选择都非常有用。为了解决这个问题，我们提出了由对象 - 部分空间约束模型（object-part spatial constraint model）驱动的部分选择方法（part selection approach），它结合了两种类型的空间约束：

Object spatial constraint强制所选部分位于对象区域并具有高度表征性（highly representative）。
Part spatial constraint减少了部分之间的重叠并突出了部分的显著性，这消除了冗余并增强了对所选部分的判别。

两种空间约束的结合不仅通过利用细微和局部区分显著地促进了判别部分的选择，而且在细粒度图像分类方面也实现了显著的改进。

OPAM APPROACH

文章的方法基于一个直观的想法：细粒度图像分类通常首先localizes the object (object-level attention)，然后discriminative parts (part-level attention)。例如，识别包含Field Sparrow的图像遵循过程，即首先找到一只鸟，然后专注于区别于其他鸟类别的辨别部分。文章提出了弱监督细粒度图像分类的对象 - 部分注意模型，它既不在训练阶段也不在测试阶段使用对象和部分注释，而只使用图像级别子类别标签。如图3所示，文章的OPAM方法首先通过对象级注意模型进行图像对象的定位来学习对象特征，然后通过部分级注意模型选择判别部分来学习细微和局部特征。