Detection：SSD（single shot multibox detecter）

86 阅读 0 评论 57 点赞

我是靠谱客的博主潇洒鸡，最近开发中收集的这篇文章主要介绍Detection：SSD（single shot multibox detecter），觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

ssd这篇感觉很工程，主要的工作我觉得有两个：

1.从多层fm上提取bbox，相当于一个multi scale的操作。值得注意的是，首先越靠近bottom越底层的fm在细节表达上做得越好，高层的fm会学习出分类这种概括性的表达，原文中加上最高层的bbox甚至会比去掉这一层效果更差（当然可能是噪声）；其次在fm上的bbox并不是严格去对应原图上的reception filed（再加上后面data augmentation工作，我的理解是目标框并不需要一个严格的标注标准比如严格相切之类），对应的关系有公式给出：

sk是第k层（原文总共有6层）提取bbox的fm与原图的尺度比例，这里smin=0.2，smax=0.9，这个定义涉及到default bbox的对应区域，是一个开放性的问题，可以根据自己的实际需求去重新定义。然后对于（aspect ratio），width计算，height计算（都要乘原图size），中心点位置，fk是第k张fm的size。这样，假设最高一层fm的size是4*4，取（i，j）=（0，0），smin=0.2，对1：1的bbox来说，512*512的原图上中心点在（64，64），长宽为102像素。