概述
前言
第一阶段的图像分类篇基本结束了,接下来开始目标检测篇。
学习资料来自:
- b站视频链接:https://space.bilibili.com/18161609/channel/index
- github代码和PPT:https://github.com/WZMIAOMIAO/deep-learning-for-image-processing
- up主的CSDN博客:https://blog.csdn.net/qq_37541097/article/details/103482003
1. R-CNN(Region with CNN feature)
原论文:《Rich feature hierarchies for accurate object detection and semantic segmentation》,发表于2014年 CVPR
R-CNN可以说是利用深度学习进行目标检测的开山之作。作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂,曾在2010年带领团队获得终身成就奖。
R-CNN算法流程
- 使用 Selective Search 方法,对一张图像生成1000~2000个候选区域
- 对每个候选区域,使用深度网络提取特征
- 特征送入每一类的SVM分类器,判断是否属于该类
- 使用回归器精细修正候选框的位置
1.1 Region Proposal (Selective Search)
候选区域的生成
使用 Selective Search (SS) 算法,对一张图像生成1000~2000个候选区域。如下图所示,假如我们要检测花,那么先用SS算法生成可能是花的候选区域:
关于SS算法,可以简单理解为将图像分割成很多很多的小块,计算每两个相邻的区域的相似度,然后每次合并最相似的两块,最后得到的每一块区域都是SS算法所认为的一个完整的物体,如下图所示:
1.2 Feature Extraction(CNN)
CNN提取候选区域的特征
将2000候选区域 resize 到227×227pixel,接着将候选区域输入事先训练好的AlexNet CNN网络获取4096维的特征,最后得到2000×4096维的特征矩阵。
1.3 Classification(SVM)
SVM 判定候选区域所属类别
将 2000 个候选区域的特征向量,即 2000×4096 维特征矩阵送入 20 个SVM分类器,获得 2000×20 维的概率矩阵,每一行代表一个候选区域归为每个目标类别的概率。(红点代表每个候选框对应最大概率的类别)
还是以花这幅图像为例,由于图中只有花这一个类别目标,因此 2000 个候选框的分类最大概率都应该是花这个类别(不排除某些候选框被分到其他类别的可能),只是每个候选框的最大概率不同。
SVM分类器为二分类器,以 PASCAL VOC 有20个类别为例,即每个类别都有一个SVM分类器
分别对上述 2000×20 维矩阵中每一列,即每一类进行 非极大值抑制(Non-Maximum Suppression:NMS) 剔除重叠的候选框,保留高质量的候选框。
- 寻找分类概率最高的候选框
- 计算其他候选框与该候选框的IOU
- 删除所有IOU值大于给定阈值的候选框
IOU(Intersection over Union),交并比,即 ( A ∩ B ) / ( A ∪ B ) (A∩B)/(A∪B) (A∩B)/(A∪B)
1.4 Bounding-box Regression
边框回归:回归器修正候选框位置
对 NMS 处理后剩余的建议框进一步筛选,即用20个回归器对上述20个类别中剩余的建议框进行回归操作,最终得到每个类别的修正后的得分最高的 bounding-box
1.5 R-CNN框架总结
1.6 R-CNN存在的问题
- 测试速度慢:一张图像内候选框之间存在大量重叠,提取特征操作冗余。
- 训练速度慢:过程极其繁琐。
- 训练所需空间大:对于SVM和bbox回归训练,需要从每个图像中的每个目标候选框提取特征,并写入磁盘。对于非常深的网络,如VGG16,从VOC07训练集上的5k图像上提取的特征需要数百GB的存储空间。
2. Fast R-CNN
原论文:《Fast R-CNN》,发表于2015年的 ICCV
Fast R-CNN是作者Ross Girshick继R-CNN后的又一力作。同样使用vGG16作为网络的backbone,与R-CNN相比训练时间快9倍,测试推理时间快213倍,准确率从62%提升至66%(再Pascal voc数据集上)。
Fast R-CNN算法流程
-
使用 Selective Search 方法,对一张图像生成1000~2000个候选区域
-
将图像输入网络得到相应的特征图(feature map),并将 SS 算法生成的候选框投影到特征图上获得相应的特征矩阵(feature vector)
-
每个特征矩阵通过 ROI pooling 层缩放到 7×7 大小的特征图,接着将特征图展平通过一系列全连接层得到预测结果
2.1 改进
- 一次性计算整张图特征
卷积不再是对每个region proposal进行,而是直接对整张图像,这样减少了很多重复计算。
- ROI Pooling Layer
每个特征矩阵通过 ROI pooling Layer 缩放到 7×7 大小,其实就是个 Max Pooling 的操作。
用ROI pooling进行特征的尺寸变换,保证了全连接层输入尺寸大小一样的要求,这样就不限制网络输入图像的尺寸注:RCNN中经过SS得到的候选框,在送入网络提取特征前需要先resize到227×227
-
目标分类和边框回归在同一个网络
网络同时输出目标检测结果和边框回归结果,相比于R-CNN中(SVM分类+边框回归)要简单很多
2.2 Fast R-CNN框架总结
可以看到, Fast R-CNN 相比于 R-CNN,将特征提取、目标分类、边框回归都统一到一个网络中,唯一的瓶颈就在于 Region proposal 这一步,SS算法提取候选区域十分耗时,这将在 Faster R-CNN 中得到解决。
3. Faster R-CNN
原论文名:《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》,发表于2017年 TPAMI
Faster R-CNN 是作者 Ross Girshick 继 Fast R-CNN 后的又一力作。同样使用 VGG16 作为网络的 backbone,推理速度在GPU上达到 5fps (包括候选区域的生成),效果接近实时,对应论文标题中的 “ Towards Real-Time Object Detection”
Faster R-CNN算法流程(相当于 RPN + Fast R-CNN)
- 将图像输入网络得到相应的特征图(feature map)
- 使用 RPN 结构生成候选框,将 RPN 生成的候选框投影到特征图(feature map)上获得相应的特征矩阵(feature vector)
- 将每个特征矩阵通过 ROI Pooling 层缩放到 7×7 大小的特征图,接着将特征图展平通过一系列全连接层得到预测结果
更详细的网络结构图:
3.1 改进:RPN(Region Proposal Network)
对于一张1000x600x3的图像,大约有60x40x9(20k)个anchor,忽略跨越边界的anchor以后,剩下约6k个anchor。对于 RPN 生成的候选框之间存在大量重叠,基于候选框的cls得分,采用非极大值抑制(NMS),IoU设为0.7,这样每张图片只剩 2k 个候选框。
3.2 Faster R-CNN框架总结
利用RPN进行候选区域提取,取代了十分耗时的SS算法,网络结构得到统一,速度得到大幅提升
总结
从 R-CNN 到 Fast R-CNN 再到 Faster R-CNN,框架越来越简洁,效果也越来越好
最后
以上就是阔达紫菜为你收集整理的pytorch目标检测篇:1. R-CNN、Fast R-CNN、Faster R-CNN理论合集前言1. R-CNN(Region with CNN feature)2. Fast R-CNN3. Faster R-CNN总结的全部内容,希望文章能够帮你解决pytorch目标检测篇:1. R-CNN、Fast R-CNN、Faster R-CNN理论合集前言1. R-CNN(Region with CNN feature)2. Fast R-CNN3. Faster R-CNN总结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复