概述
2018年CVPR文章,基于Faster-RCNN,进行领域自适应改进(似迁移学习),用在进行雾气,光线不良情况下的野外迁移探测活动(复杂多变的场景)
解决domain shift
1.image level :scale,style,illumination
2.instance level:obj appearance ,size and orientation
主要贡献
1.概率统计论的角度分析domain shift的成因和解决方法
2.设计了2个domain adaptation分支(img level&instance level)
3.利用consistency regularization 使得RPN domain-invariant
4.所有分支构建于faster-rcnn实现end-to-end(之前的AD model大多是想方试法使得source和target尽可能拥有相近的分布或者表示,然后进行后续识别或者分类)
Distribution Alignment with H-divergence
以上的domain distance用来衡量两组来自不同分布的抽样间差异,为了使resource和target尽可能接近只需最小化domain distance即可:
Probabilistic perspective
整个目标检测问题可以看成学习target domain下的P(C,B|I),I是img的presentation(feature),B是某个obj的bounding-box,C是类标签。联合分布可以表示为:Pr(C,B,I)和Pt(C,B,I),因为domain shift的存在,所以2个概率不相等。基于联合分布的两种表示形式,分为img-level和instance-level两个层面:
Img-level adptation
只有当两个domain的条件概率相同时才可以进行预测(预测结果的一致性),所以导致联合的差异来自于P(I),所以为了使联合分布一致必须使图片的presentation有相同的distribution。
Instance-Level Adaptation
2个条件概率的分布相同,那么domain distribution shift来自于P(B,I),也就是要确保P(B,I)的一致性(P(B,I)代表instance的presentation)。暗示着相同语义的实例在不同的场景(背景)拥有相同representation
Joint Adaptation:
把P(B,I)进一步分解:P(B,I)=P(B|I)P(I)
img-level presentation和instance-level presentation的一致性可以互推,因此可以利用source的Ps(B|I)作为target的Pt(B|I)。但是现在面临的困难就是估计P(B|I),P(I)来自于两个domain的distribution的alignment,但这多少会有误差。P(B,I)也就是annotaion,因为只有resource的annotation,所以很难估计P(B|I)。因此,本文采用两个level的distribution alignment(通过两个domain classifier),再用Consistency Regularization确保一致。
P(D|B,I):ins-level domain classifier
P(D|I):img-level domain classifier
P(B|I):domain-invariant bounding box predictor
P(B|D,I):domain-dependent bounding box predictor
在target没有bbox的情况下只能学到P(B|D,I),但是如果强制P(D|I)=P(D|B,I)则可通过P(B|D,I)得到P(B|I)
Realize
上图是gradient reverse layer(出自:2015 ICCV的Unsupervised Domain Adaptation by Backpropagation)整个网络需要估计:feature extractor f,label predictor l,domain label d。f需要使l的error越小越好,使d的error越大越好(因此这条分支下的backpropagation 梯度为负数),这大概就是adversarial training的思想吧!在测试时则无需红色分支,直接使用在训练阶段红色对抗下提取的特征模式进行target的预测!
在faster尾部加了2个level的domain classifier,img-level的接在最后一个卷积层后,ins-level接在ROI wise feature之后,两者通过consistency regularization 连接促使RPN产生domain invariance。
Image-Level Adaptation
在 来自feature map的每个activation都采用 domain classifier,然后每个activation的receptive field 都是原图的一个batch,因此又称作batch-based domain classifier(易误解)。这种相似的策略还出现在ECCV2016飞飞姐的有关风格迁移paper(Perceptual losses for
real-time style transfer and super-resolution.),但是在 obj detection中的batch size比较小以适应高分辨率。
建立在feature map的activations
Instance-Level Adaptation
建立在region proposal的feature vectors
Consistency Regularization
取所有activations的average作为img-level的概率来作为正则化项(约束由各个activation产生的差异):
最后整个网络的loss:
faster探测部分loss+img-level adaptation loss+ins-level adaptation loss+consistency regularization
同样,在测试时可以只使用faster-rcnn部分进行target domain的预测!
Github:Domain adaptive faster-rcnn for object detection in the wild
以上纯属个人理解,欢迎指正,谢谢~
最后
以上就是耍酷蚂蚁为你收集整理的Domain adaptive faster-rcnn for object detection in the wild 论文笔记的全部内容,希望文章能够帮你解决Domain adaptive faster-rcnn for object detection in the wild 论文笔记所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复