基于RGB-D数据的人体检测

250 阅读 0 评论 165 点赞

我是靠谱客的博主专一蓝天，这篇文章主要介绍基于RGB-D数据的人体检测，现在分享给大家，希望可以做个参考。

摘要:
提出一种新的基于RGB-D数据的人体检测方法,其灵感来自HOG（the Histogram of Oriented Gradients），设计了一个稳定的基于稠密深度数据的人体检测方法，称之为HOD（Histogram of Oriented Depths）。HOD对局部深度变化的方向进行编码，并且依靠的是一个预知深度信息的尺度空间搜索，该搜索使检测过程获得3倍的加速。随后提出了Combo-HOD，一个以一定概率结合了HOD和HOG的RGB-D检测器。通过该方法和几个检测方法的综合比较，包括HOG方法、几个HOD的变形方法、用于3D点云的几何体检测器以及基于Haar的AdaBoost检测器。在最远8米范围内，等错误率为85%的情况下，实验结果显示HOD和Combo-HOD在用kinect传感器获得的室内环境的真实数据集上具有鲁棒性。

贡献如下:

1 提出了一个健壮的基于稠密深度信息的人体检测方法HOD(Histogram of Oriented Depths),其灵感来源于Histogram of Oriented Gradients(HOG)和Kinect RGB-D传感器的深度特征；

2 基于一个已训练的尺度到深度的映射和一个新的积分图使用方式进行预知深度信息的尺度空间搜索；

3 提出了Combo-HOD,一个新的利用RGB-D数据进行人体检测的融合方法；

4 实验对比采用了很多方法综合比较,比如HOG方法、几个HOD的变形方法、用于3D点云的几何体检测器以及基于Haar的AdaBoost检测器。

效果如下：

细节介绍：

1 HOG：Histograms of Oriented Gradients

此方法使用一个固定尺寸的检测窗口，窗口被划分为以cell为单位的均匀网格。计算每个cell中像素的梯度方向并统计到一个一维直方图中。直观的表述就是局部外观和形状可以被局部梯度的分布很好地描述，而不需要知道这些梯度在网格中的精确位置。将一组cell聚合成blocks，进行局部对比度归一化。将所有block中的直方图串接起来，构成检测窗口的描述子向量，此描述子向量被用来训练线性SVM分类器。检测人体时，在图像的不同尺度空间滑动检测窗口，计算每个位置和尺度的HOG描述子，然后用学习好的SVM分类器进行分类。

2 HOD : Histograms of Oriented Depths

1）原理：操作流程和HOG基本相同，包括将固定窗口划分为cell，计算每个cell的描述子，将深度方向梯度统计到一维直方图中。四个cell组成一个block，并通过聚集和归一化使达到L2-Hys[6]的单元长度并从而对深度噪声具有更好的鲁棒性。直观的表达就是局部深度变化数组可以很好的描述局部3D形状和外表。最后得到的HOD特征向量被用来训练一个软线性SVM分类器，使用论文[6]中给出的两部训练方法。

2）深度图像预处理：在SectionⅡ中已讨论过，原始深度图对真实距离的编码非常不均匀。对于远处的目标，一个深度值可以对应15cm的距离变化。这对于HOG/HOD框架非常重要，因为在该方法中目标轮廓周围的block占有很大的权重。特别是那些对应具有最高正权重的SVM超平面的block。所以，我们对带有公式(1)的原始深度图进行预处理来加强前景和背景的分割。为了加强梯度计算的数值稳定性，将得到的以米为单位的深度值乘以M/Dmax，其中M = 100，表示恒定增益，Dmax = 20，是最大距离，单位为米。此预处理步骤类似用于加强深度图像对比度的伽马校正的思想。我们可以利用关于传感器的一些知识，用较好的身体模型来消除非线性影响。

3）预知深度信息的尺度空间搜索：多数视觉检测方法例如HOG使用在图像中的尺度空间的搜索来发现目标。在HOD方法中，我们可以利用深度信息来引导此搜索过程。有了预知深度信息的估计，搜索会更加高效和精确。

我们改进搜索过程的思想是提出一个快速区分深度图中每个位置上兼容的尺度的方法。首先，从训练数据集中计算出平均人体高度Hm，数据集中地面位置和每个样本的高度都做了精确标注。随后此信息按如下公式用来计算一个尺度到深度的映射(如图4中所示)：

Fy是红外摄像机在垂直方向的焦距长度，Hm = 1.74m是人体的平均高度，Hw是检测窗口在尺度为1时的高度，单位为米。注意公式2左边的部分表示高度为Hm的半平面在距离d处垂直于摄像机的图像投影。为了限制内存使用，每1/3尺度对函数2进行一次量化。计算深度图中每个像素的尺度s，形成一个尺度映射，从中可以得到所有尺度的列表S。此列表S只包括图像中人体可能存在位置的尺度。此方法避免了在图像金字塔的所有尺度进行启发式搜索。

每个图像对应一个尺度列表S，然后进行尺度空间的搜素。搜索时，只有当搜索窗口的深度信息对应列表S中的尺度时，才拿到SVM分类器中进行分类。

解决这一问题的简单做法是选择尺度列表S中的一个尺度s，看检测窗口中每个位置的深度值是否与s兼容。这种方法需要扫描搜索窗口中的每个位置并测试是否有至少一个深度值与s兼容，计算复杂度很高，尤其是遇到大尺度时。

通过使用积分图[14]，我们提出一种更快速地可在O(1)时间内完成的测试尺度是否兼容的方法。积分图是一种可快速计算矩形区域内像素值和的技术。积分图中每个点的像素值是原图中该点左上方所有点像素值的和。构建积分图的过程耗时O(N)，N是原图的尺寸大小。使用积分图的主要优点是可通过4次减法快速计算面积积分。将此原理扩展到积分张量，即多层积分图，层数与受公式2量子化影响的S中的尺度个数相同。积分张量中的每层是一个二进制图像，其非白像素对应该层的尺度。这样就可以高效地测试给定搜索窗口是否包含至少一个某一尺度的像素。积分张量的构建每张图片需要进行一次。

检测时，选择S中的一个尺度s。对于每个搜索窗口位置，用积分张量中对应尺度s的层对搜索窗口进行面积积分。如果结果大于0，说明至少有一个与尺度s兼容的深度像素，则计算HOD描述子；否则该检测窗口不被考虑，继续测试下一个窗口。

3 Combo-HOD

上面介绍的两种检测方法都是单独考虑彩色数据或距离数据。为了利用丰富的RGB-D数据，我们现在提出Combo-HOD，一种新的结合两种数据的检测方法。这种结合意义重大：深度数据对光照变化具有鲁棒性，但会受到返回信号强度过低的影响，并且分辨率有限。彩色图像具有丰富的数据颜色和纹理，较高的角坐标分辨率，但在非理想光线下很快失效。

Combo-HOD是分别在图像数据上训练一个HOG检测器，在深度数据上训练一个HOD检测器。此方法依赖于上面介绍的预知深度信息的尺度空间搜索：每个检测窗口都有一个对应的兼容的尺度，在深度图上计算HOD描述子，利用同一检测窗口在彩色图上计算HOG描述子。当无深度数据可用时，检测器自动退化为标准HOG检测器。需要一个校准程序来计算将两种图片合理对应起来的外部参数。

当HOG和HOD描述子都经过分类后，就该进行信息融合了。决策函数由HOD或HOG描述子和SVM超平面加偏移的点积的符号来给定。为了融合这两个信息，我们根据论文[19]中Platt等提出的方法，对每个SVM的输出拟合一个S型函数，将输出值映射到概率轴。来自HOD检测器的概率pD和HOG检测器的概率pG通过信息滤波器进行融合：