我读Boosting Saliency CVPR 2012

246 阅读 0 评论 163 点赞

我是靠谱客的博主紧张面包，这篇文章主要介绍我读Boosting Saliency CVPR 2012，现在分享给大家，希望可以做个参考。

原创手打，转载请注明出处。如有疑问或者错误，留言即可。
讲稿ppt：
http://download.csdn.net/detail/xuanwu_yan/4852558

2014.4.28更新：Matlab with C mex实现方法已传至github，方便大家直接下载。传送门

Boosting Bottom-up and Top-down Visual Features for Saliency

这篇文章的作者是Ali Borji，Pdf，三篇cvpr_2012，明年有篇TPAMI

本文主要提取低层(low-level)和高层(top-down)产生的saliency map的集合成为该点特征，并使用leave-one-out的方法用三种分类器（Regression，SVM，Boosting）在三个数据集上训练测试，与真人观测得到的眼动数据ground-truth对比，在三个度量（AUC，NSS，CC）上发现Boosting得到的拟合眼动数据效果最好，最后在ROC曲线上与其他方法得到的saliency map进行对比。

本文的主要出发点是一个贝叶斯公式的推导，在具有特征f的某位置x是salient的概率p是等式的左边，有如下

此处假设f与x相互独立，且先验概率p(s)相同，所以可以得到正相关最右。又有：

即与图片中心点的欧式距离相关，所以本文主要研究的是特征点和salient的对应关系。

接下来说说feature的来源。

视觉特征的底层特征提取：色强，方向，颜色值。
图片先缩放200x200，然后用下面的4类方法提取特征，像素级。

高层特征，包括人脸，文字，人体，车，对称的东西，引导注意的标志符号等。提取比较困难，因为情绪和动作因果关系包含且无法检测，文字检测也没有好的算法。

综上，底层和高层加起来，每个pixel就对应一个34维的feature，然后化为200x200的map，
提取feature就到这里，下面介绍三个分类器。
采用online learning，先将feature matrix归一化，使其平均数是0，标准差是1，然后建立一个等大小的label map，每个点取值+1/-1，人眼观测的预测结果，top 20%标注+1，bottom 40% 标注-1。他将数据集分为N组，然后使用leave-one-out的方式进行训练和测试。测试的分类器包括：线性回归(Regression)，线性核的SVM，以及boosting方法。从实验结果对比来看，非线性的boosting方法取得的效果是最好的。
三个分类器我就不讲了，看我ppt吧，主要是我也不会。。。。
train->test之后就得到了saliency map，用三个评价指数比较关注点预测和显著对象检测的对应关系，发现很好。

AUC值为ROC曲线与x轴之间距离的积分。
线性相关系数CC表示saliency map和人眼关注map之间的线性关系，计算协方差。
NSS归一化扫描路径的显着性，描述saliency可以描述fixation的程度，给定一幅图，标记人眼观测显著点，计算saliency map，平均数是0，标准差是1，取人眼观测显著点处的saliency value，值越大，saliency越能够描述人眼fixation。见ppt

Cvpr_2011, Unbiased Look at Dataset Bias，无偏见的研究数据集偏见。认为单个数据集不具有普适性和领域性。
所以这个论文在3个数据集上建立了眼动数据，和其他27个saliency模型对比。
又介绍了两个map，一个是Gaussian map，图片中心点画一个Gaussian图形；另一个就是眼动数据作为Ground-truth，描述关注其他事物的时间和给定刺激的比值，三个数据集上15个人，每幅图播放几秒，间隔一秒的灰色图像，以此建立。

下面是AUC对比