单目 3D 目标检测——SMOKE

268 阅读 0 评论 177 点赞

我是靠谱客的博主壮观豌豆，这篇文章主要介绍单目 3D 目标检测——SMOKE，现在分享给大家，希望可以做个参考。

????SMOKE 主要工作：

提出一种端到端的单目 3D 目标检测的方法，该方法具有较为简洁的网络结构
提供一种多步解缠（multi-step disentanglement）的方法，从而提高 3D 参数的收敛性以及检测的精度
在 2019.11.12 提交的时候，SMOKE 在 KITTI 数据集上优于所有当时的最先进的单目 3D 目标检测算法

✍️SMOKE 延续了 centernet 的 key-point 做法，认为 2D 检测模块是多余的，只保留了 3D 检测模块。其预测投影下来的 3D 框中心点和其他属性变量，从而得到 3D 框，参考 Disentangling Monocular 3D Object Detection 对预测属性进行了 loss 解耦。这个简单的结构收敛较快且推理耗时较小。

????论文 Delving into localization error 中证明了 2D 检测的必要性（帮助 3D 检测学习到共享特征），所以 SMOKE 中去掉 2D 检测模块的做法有待商榷？

网络结构

????SMOKE 的网络结构非常简洁，主要由 backbone 、关键点分类分支和 3D 框回归分支组成

在这里插入图片描述

????backbone：使用与 centernet 相同的 DLA-34 结构来提取特征，但所有的分层聚合连接（hierarchical aggregation connections）替换为可变形卷积网络（DCN）。此外，由于 GN（group normal）对 batch size 不那么敏感，且对于训练噪声更加鲁棒，因此 SMOKE 将所有的 BN 操作全部换为 GN 操作。所得特征图宽和高为原来的 $1 4 frac{1}{4}$ ，通道数为 256

????3D 目标检测网络：该部分包括关键点分类分支（采用 heatmap）和 3D 框回归分支，这两个分支处理主干特征提取网络 DLA-34 获取到的特征图，并将各自处理后的结果融合后得到 3D 目标检测结果
在这里插入图片描述

关键点分支：采用与 centernet 中类似的结构来预测关键点，每个物体返回一个关键点。关键点被定义为物体在图像平面上 3D 投影中心，而不是 2D 边界框的中心

在这里插入图片描述

✍️如图，红色点为 2D 框中心点，而橙色点为 3D 点投影后的结果。假设 $end{bmatrix}^T$ 为物体在相机坐标系下的 3D 中心点， $x_c & y_c end{bmatrix}^T$ 为 3D 中心点投影到图片上的点（图中橙色点），相机内参矩阵为 $K$ ，则这两个点的投影关系如下：
$x_c \ z cdot y_c \ z end{bmatrix} = K_{3 times 3} begin{bmatrix} x \ y \ z end{bmatrix}$

3D 框回归分支：预测相关的 3D 参数，包括 $(x, y, z, l, w, h, θ)$ 。其中， $(x, y, z)$ 为 3D 框的中心点， $(l, w, h)$ 为 3D 框的长宽高， $θ$ 为 3D 框的航角。本文中与 ROI-10D 和 disentangling 中类似，用 8 维的变量来表示： $delta_z, delta_{x_c}, delta_{y_c}, delta_w, delta_h, delta_l, sin alpha, cos alpha end{bmatrix}$ ，都做成的预测偏移量 $δ$ 来减小学习的难度
- $delta_z$ ：表示相机坐标系下目标的距离 z 的偏移量（offset），根据从数据集中统计出平移平均值 $mu_z$ 和尺度方差 $sigma_z$ ，可用 $mu_z + delta_z sigma_z$ 得到最终的深度 z
- $delta_{x_c}$ 和 $delta_{y_c}$ ：为 heatmap 中由于下采样引起的量化误差，与 centernet 中一样，从而可得 3D 框中心点预测结果
  $left[begin{matrix}x\y\z\end{matrix}right]=K_{3times3}^{-1}left[begin{matrix}zcdotleft(x_c+delta_{x_c}right)\zcdotleft(y_c+delta_{y_c}right)\z\end{matrix}right]$
- $delta_h$ ， $delta_w$ ， $delta_l$ ：相对于平均值（每类单独统计均值）的长宽高缩放量，通过以下公式可得 3D 框最终的长宽高
  $left[begin{matrix}h\w\l\end{matrix}right] = left[begin{matrix}overline{h}cdot e^{delta_h}\overline{w}cdot e^{delta_w}\overline{l}cdot e^{delta_l}\end{matrix}right]$
  ✍️其中， $\overline{h}$ 、 $\overline{w}$ 和 $\overline{l}$ 是根据不同类别预先统计数据集中所有类别的平均长宽高
- $s i n α$ 和 $c o s α$ ：将角度编码为 sin 和 cos 从而映射为连续值，是角度估计中的常见做法，通过以下公式可得航角 $θ$
  $&alpha_x^prime=arctanleft(frac{sinalpha}{cosalpha}right) \ &alpha_z = begin{cases} alpha_x^{'} - frac{pi}{2}, & if cos alpha ge 0 \ alpha_x^{'} + frac{pi}{2}, & if cos alpha < 0end{cases} \ &theta=alpha_z+arctanleft(frac{x}{z}right) end{aligned}$

????最后，通过航角的旋转矩阵 $R_{theta}$ 、物体的长宽高 $h, w, l]^T$ 和中心点位置 $x, y, z]^T$ 可构建 3D 边界框的 8 个角点（corners），公式如下：
$R_{theta} begin{bmatrix} pm h/2 \ pm w/2 \ pm l/2 end{bmatrix} + begin{bmatrix} x \ y \ z end{bmatrix}$

损失函数

????损失函数由关键点分类损失和 3D 框回归损失组成

关键点分类损失：与 centernet 类似，在 focal loss 的基础上加权，对中心点附近的位置降低 loss 权重，其公式如下：
$L_{cls} = - frac{1}{N} sum_{i, j = 1}^{h, w} (1 - widetilde{y}_{i, j})^{beta}(1-widetilde{s}_{i, j})^{gamma}log(widetilde{s}_{i, j}) \ & widetilde{y}_{i, j} = begin{cases} 0 & if y_{i, j} = 1 \ y_{i, j} & otherwise end{cases} \ & widetilde{s}_{i, j} = begin{cases} s_{i, j} & if y_{i, j} = 1 \ 1 - widetilde{s}_{i, j} & otherwise end{cases} end{aligned}$
✍️其中， $s_{i, j}$ 为热图（heatmap）在位置 $(i, j)$ 的预测分数（predicted score）， $y_{i, j}$ 为真实值（the ground-truth value of each point assigned by Gaussian Kernel）， $β$ 和 $γ$ 为可微调（tunable）的超参数， $N$ 是每张图片中关键点的数量
3D 框回归损失：将 disentangling loss 进行推广，得到多步形式。对 (h, w, l)，(x, y, z) 和 $α$ 分别构建了 3 个 box 的 8 个角点，计算了 3 个解耦 L1 损失，该 L1 损失公式如下：
$L_{reg} = frac{lambda}{N} parallel widehat{B} - B parallel_1$
✍️其中， $λ$ 为缩放因子（scaling factor）， $B ^ widehat{B}$ 为预测值， $B$ 为真实值
- 中心点预测中：使用 3D 框的 gt 中心点 $x, y, z]^T$ 投影到图像上 $x_c, y_c]^T$ 来预测中心点 $hat{z}]^T$ ，其他值使用 gt 值代入计算得到 3D 框的 8 个角点坐标
- 观测角预测中：使用 3D 框的 gt 中心点 $(x, y, z)$ 和预测的观察角 $hat{alpha}_z$ 计算 $θ$ 角，从而计算得到 3D 框的 8 个角点坐标
- 长宽高预测中：长宽高使用预测值，其他值使用 gt 代入计算得到 3D 框的 8 个角点坐标
  
  ✍️其实就是，预测哪种类型的，那一类型的参数就使用预测值，其他使用真实值，从而计算得出 8 个预测角点的坐标