我是靠谱客的博主 干净水蜜桃,最近开发中收集的这篇文章主要介绍阅读总结:Rich feature hierarchies for accurate object detection and semantic segmentation为什么提出R-CNN:R-CNN的运行流程:我在阅读是遇到的问题:我觉得本文的贡献,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

为什么提出R-CNN:

1、以人工经验特征为主导的物体检测任务mAP提升缓慢.

2、ImageNet大规模视觉识别挑战赛中,采用CNN特征获得了最高的图像识别精确度,

3、引发了一股“是否可以采用CNN特征来提高当前一直停滞不前的物体检测准确率“的热潮

R-CNN的运行流程:

1、构造训练集(用于对CNN进行微调)

先用Selective Search的方法在每个图像上生成很多的候选区域(大约2000个类别独立的候选区域),然后在每张图上依次计算每个候选区域与图中目标的ground-truth box之前的重叠程度(IoU),如果重叠程度大于0.5则标记这个区域为此目标的正样本,否则,为负样本

2、训练CNN来抽取候选区域深度特征

先使用AlexNet的网络结构的CNN进行有监督预训练,之后用上述的数据集进行微调。微调时,先对候选区域进行了归一化(227*227),特征是通过前向传播通过五个卷积层和两个全连接层减去平均的224X224 RGB图像来计算的。输出结果修改了原来的1000为类别输出,改为21维【20类+背景】输出,训练的是网络参数。

3、训练集构造(用于训练多个SVM分类器)

本文的做法就是以每张图像上猫这个目标的GT Boxes作为正样本,然后在图像上生成很多候选区域,考察每个区域与猫目标的GT boxes之间的IoU,如果IoU小于0.3,那么就认定这个区域为负样本,重叠度在0.3~1之间的不用做训练.

4、为每个类训练一个binary SVM分类器

训练集里面的正样本和负样本都要使用上面已经训练好的CNN来提取各自的4960维度的特征向量,然后再对分类器进行训练.

5、使用Boundary-box regression的方法

作者在3.4节中使用了Boundary-box regression的方法进一步定位物体的,这样使得mAP提高了3~4个点。

我在阅读是遇到的问题:

1、我注意到在两次训练集的划分过程中,选择的IoU阈值不同,一个是0.5(用于对CNN进行微调),一个是0.3(用于训练多个SVM分类器)。作者在文章中解释原因是选择0.5和0都会导致结果的准确度下降,也就是说此处的0.3应该是人机交互的结果。但是对于0.5参数,作者没有指明为什么这样选择,虽然IoU的中间值是0.5,但有没有可能通过不同值的选择,得到更好的结果。

2、对于本文中使用的非极大值抑制的使用,文章解释是如果与他交叉重叠的候选区有着对某类有较高得分,且得分大于0.3,则该区域会被抑制。我对这句的理解不是很到位。是指所有大于阈值的有重叠的候选区,仅保留最大值候选区的意思吗?

我觉得本文的贡献

突破性的采用了CNN网络来提取图像的特征
大样本下有监督预训练,小样本下特征微调,解决了小样本难以训练的问题

最后

以上就是干净水蜜桃为你收集整理的阅读总结:Rich feature hierarchies for accurate object detection and semantic segmentation为什么提出R-CNN:R-CNN的运行流程:我在阅读是遇到的问题:我觉得本文的贡献的全部内容,希望文章能够帮你解决阅读总结:Rich feature hierarchies for accurate object detection and semantic segmentation为什么提出R-CNN:R-CNN的运行流程:我在阅读是遇到的问题:我觉得本文的贡献所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部