概述
为什么提出R-CNN:
1、以人工经验特征为主导的物体检测任务mAP提升缓慢.
2、ImageNet大规模视觉识别挑战赛中,采用CNN特征获得了最高的图像识别精确度,
3、引发了一股“是否可以采用CNN特征来提高当前一直停滞不前的物体检测准确率“的热潮
R-CNN的运行流程:
1、构造训练集(用于对CNN进行微调)
先用Selective Search的方法在每个图像上生成很多的候选区域(大约2000个类别独立的候选区域),然后在每张图上依次计算每个候选区域与图中目标的ground-truth box之前的重叠程度(IoU),如果重叠程度大于0.5则标记这个区域为此目标的正样本,否则,为负样本
2、训练CNN来抽取候选区域深度特征
先使用AlexNet的网络结构的CNN进行有监督预训练,之后用上述的数据集进行微调。微调时,先对候选区域进行了归一化(227*227),特征是通过前向传播通过五个卷积层和两个全连接层减去平均的224X224 RGB图像来计算的。输出结果修改了原来的1000为类别输出,改为21维【20类+背景】输出,训练的是网络参数。
3、训练集构造(用于训练多个SVM分类器)
本文的做法就是以每张图像上猫这个目标的GT Boxes作为正样本,然后在图像上生成很多候选区域,考察每个区域与猫目标的GT boxes之间的IoU,如果IoU小于0.3,那么就认定这个区域为负样本,重叠度在0.3~1之间的不用做训练.
4、为每个类训练一个binary SVM分类器
训练集里面的正样本和负样本都要使用上面已经训练好的CNN来提取各自的4960维度的特征向量,然后再对分类器进行训练.
5、使用Boundary-box regression的方法
作者在3.4节中使用了Boundary-box regression的方法进一步定位物体的,这样使得mAP提高了3~4个点。
我在阅读是遇到的问题:
1、我注意到在两次训练集的划分过程中,选择的IoU阈值不同,一个是0.5(用于对CNN进行微调),一个是0.3(用于训练多个SVM分类器)。作者在文章中解释原因是选择0.5和0都会导致结果的准确度下降,也就是说此处的0.3应该是人机交互的结果。但是对于0.5参数,作者没有指明为什么这样选择,虽然IoU的中间值是0.5,但有没有可能通过不同值的选择,得到更好的结果。
2、对于本文中使用的非极大值抑制的使用,文章解释是如果与他交叉重叠的候选区有着对某类有较高得分,且得分大于0.3,则该区域会被抑制。我对这句的理解不是很到位。是指所有大于阈值的有重叠的候选区,仅保留最大值候选区的意思吗?
我觉得本文的贡献
突破性的采用了CNN网络来提取图像的特征
大样本下有监督预训练,小样本下特征微调,解决了小样本难以训练的问题
最后
以上就是干净水蜜桃为你收集整理的阅读总结:Rich feature hierarchies for accurate object detection and semantic segmentation为什么提出R-CNN:R-CNN的运行流程:我在阅读是遇到的问题:我觉得本文的贡献的全部内容,希望文章能够帮你解决阅读总结:Rich feature hierarchies for accurate object detection and semantic segmentation为什么提出R-CNN:R-CNN的运行流程:我在阅读是遇到的问题:我觉得本文的贡献所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复