Domain adaptive faster-rcnn for object detection in the wild 论文笔记

87 阅读 0 评论 58 点赞

我是靠谱客的博主耍酷蚂蚁，最近开发中收集的这篇文章主要介绍Domain adaptive faster-rcnn for object detection in the wild 论文笔记，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

2018年CVPR文章，基于Faster-RCNN，进行领域自适应改进（似迁移学习），用在进行雾气，光线不良情况下的野外迁移探测活动（复杂多变的场景）

解决domain shift

1.image level :scale,style,illumination
2.instance level:obj appearance ,size and orientation

主要贡献

1.概率统计论的角度分析domain shift的成因和解决方法
2.设计了2个domain adaptation分支（img level&instance level）
3.利用consistency regularization 使得RPN domain-invariant
4.所有分支构建于faster-rcnn实现end-to-end（之前的AD model大多是想方试法使得source和target尽可能拥有相近的分布或者表示，然后进行后续识别或者分类）

Distribution Alignment with H-divergence

这里写图片描述
以上的domain distance用来衡量两组来自不同分布的抽样间差异，为了使resource和target尽可能接近只需最小化domain distance即可：

Probabilistic perspective

整个目标检测问题可以看成学习target domain下的P(C,B|I)，I是img的presentation(feature)，B是某个obj的bounding-box,C是类标签。联合分布可以表示为：Pr(C,B,I)和Pt(C,B,I)，因为domain shift的存在，所以2个概率不相等。基于联合分布的两种表示形式，分为img-level和instance-level两个层面：
Img-level adptation
这里写图片描述
只有当两个domain的条件概率相同时才可以进行预测(预测结果的一致性)，所以导致联合的差异来自于P(I),所以为了使联合分布一致必须使图片的presentation有相同的distribution。
Instance-Level Adaptation

2个条件概率的分布相同，那么domain distribution shift来自于P(B,I),也就是要确保P(B,I)的一致性（P(B,I)代表instance的presentation）。暗示着相同语义的实例在不同的场景（背景）拥有相同representation
Joint Adaptation:
把P(B,I)进一步分解：P(B,I)=P(B|I)P(I)
这里写图片描述
img-level presentation和instance-level presentation的一致性可以互推，因此可以利用source的Ps(B|I)作为target的Pt(B|I)。但是现在面临的困难就是估计P(B|I)，P(I)来自于两个domain的distribution的alignment，但这多少会有误差。P(B,I)也就是annotaion，因为只有resource的annotation，所以很难估计P(B|I)。因此，本文采用两个level的distribution alignment（通过两个domain classifier），再用Consistency Regularization确保一致。
这里写图片描述
P(D|B,I)：ins-level domain classifier
P(D|I)：img-level domain classifier
P(B|I)：domain-invariant bounding box predictor
P(B|D,I)：domain-dependent bounding box predictor
在target没有bbox的情况下只能学到P(B|D,I)，但是如果强制P(D|I)=P(D|B,I)则可通过P(B|D,I)得到P(B|I)

Realize

这里写图片描述
上图是gradient reverse layer（出自：2015 ICCV的Unsupervised Domain Adaptation by Backpropagation）整个网络需要估计：feature extractor f，label predictor l，domain label d。f需要使l的error越小越好，使d的error越大越好（因此这条分支下的backpropagation 梯度为负数），这大概就是adversarial training的思想吧！在测试时则无需红色分支，直接使用在训练阶段红色对抗下提取的特征模式进行target的预测！
这里写图片描述
在faster尾部加了2个level的domain classifier，img-level的接在最后一个卷积层后，ins-level接在ROI wise feature之后，两者通过consistency regularization 连接促使RPN产生domain invariance。
Image-Level Adaptation
在来自feature map的每个activation都采用 domain classifier，然后每个activation的receptive field 都是原图的一个batch，因此又称作batch-based domain classifier（易误解）。这种相似的策略还出现在ECCV2016飞飞姐的有关风格迁移paper（Perceptual losses for
real-time style transfer and super-resolution.），但是在 obj detection中的batch size比较小以适应高分辨率。
这里写图片描述
建立在feature map的activations
Instance-Level Adaptation

建立在region proposal的feature vectors
Consistency Regularization
取所有activations的average作为img-level的概率来作为正则化项（约束由各个activation产生的差异）：
这里写图片描述
最后整个网络的loss：

faster探测部分loss+img-level adaptation loss+ins-level adaptation loss+consistency regularization
同样，在测试时可以只使用faster-rcnn部分进行target domain的预测！
Github：Domain adaptive faster-rcnn for object detection in the wild
以上纯属个人理解，欢迎指正，谢谢~