Detection:SSD(single shot multibox detecter)
ssd这篇感觉很工程,主要的工作我觉得有两个:1.从多层fm上提取bbox,相当于一个multi scale的操作。值得注意的是,首先越靠近bottom越底层的fm在细节表达上做得越好,高层的fm会学习出分类这种概括性的表达,原文中加上最高层的bbox甚至会比去掉这一层效果更差(当然可能是噪声);其次在fm上的bbox并不是严格去对应原图上的reception filed(再加上后面data