Rich feature hierarchies for accurate object detection and semantic segmentation
Abstract在过去几年中,在标准PASCAL VOC数据集上测量的目标检测性能保持稳定。性能最好的方法是复杂的集成系统,通常将多个低级图像特征与高级上下文相结合。在本文中,我们提出了一种简单且可扩展的检测算法,与之前在VOC 2012上获得的53.3%的平均精度相比,平均精度(mAP)提高了30%以上。 我们的方法结合了两个关键观点:(1)可以将大容量卷积神经网络(CNN)应用于自下而上的区域建议(region proposals),以便定位和分割目标;(2)当标记的训练数据稀缺时,辅助任务