不用激光雷达，照样又快又准！3D目标检测之SMOKE向大家介绍一篇CVPR 2020 Workshop的文章：SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation。

125 阅读 0 评论 83 点赞

我是靠谱客的博主霸气心锁，最近开发中收集的这篇文章主要介绍不用激光雷达，照样又快又准！3D目标检测之SMOKE向大家介绍一篇CVPR 2020 Workshop的文章：SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation。，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

向大家介绍一篇CVPR 2020 Workshop的文章：SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation。

0. 动机

3D目标检测用于估计目标的类别、位置和姿态，与2D目标检测相比，3D目标检测更具有挑战性。有很多工作研究使用激光雷达进行3D目标检测，激光雷达成本较高、寿命较短，与之相比，相机成本低、寿命长，且易于安装。

很多基于单目相机做3D目标检测的算法都是多阶段（multi-stage）的，即基于2D目标检测网络得到的2D框，在后面添加额外的分支预测3D框，亦或者是产生点云作为点云检测网络的输入，这种方法的弊端是：2D框检测的少许偏差可能会引起3D框检测的较大偏差。

作者提出了一个直接预测3D目标框的单阶段端到端算法，包含1个分类分支和1个回归分支，计算量小，易于训练且精度高。

1.建模

使用单目相机做3D目标检测，可以提炼为：输入RGB图像

和分别表示输入图像的宽度和高度，输出图像中目标的类别和3D框。

使用表示3D框，其中表示目标的高、宽、长；

表示目标在相机坐标系中的坐标，单位为米；角度表示3D框的航向角。

需要特别指出的是，要准确地预测3D框，需要知道相机内参。

2. 网络结构

网络的总体结构如下图所示：

2.1 Backbone

使用与论文《Objects as points》类似的DLA-34作为Backbone，输出特征图的长和宽分别为输入图像的1/4。

与之不同的是，作者将网络中的BN（BatchNorm）替换为GN（GroupNorm），实验表明使用GN能减小网络性能对batch size的敏感程度，还能减少训练时间。

2.2 关键点检测分支

将目标3D框的中心点在图像平面的映射点

定义为关键点，关键点检测分支的目标就是寻找输入图像中的关键点。

在训练时，需要根据3D框确定关键点的位置，若知道相机内参和目标3D框的中心点

根据如下公式求得关键点：

参考论文《Objects as points》中的做法，使用高斯函数作为关键点检测分支的学习目标。使用

表示3D框的8个顶点在图像中的位置，则

表示在图像中包围3D框的最小长方形，通过

确定高斯函数的标准差。

2.3 回归分支

使用向量

编码目标的3D框，它们的含义是：

表示深度偏移；
和对下采样产生的量化误差进行补偿；
、、分别表示高、宽、长的残差（residual dimensions）；
和用于确定角度。

相比于直接学习3D目标框各个属性的值，学习偏移量更容易训练。

因为要使用8个标量组成的向量确定3D框，那么回归分支输出的feature map尺寸为

，用于控制feature map的尺寸。

下面讲述网络输出的向量与3D框属性的关系。

根据深度偏移量可以求得目标的深度值，公式如下：

上式中的和是预定义的值，

单位为米。

已知目标的深度，根据回归分支输出的、以及关键点检测分支输出的

可以得到目标在相机坐标系下的三维坐标：

根据回归分支输出的、、以及预定义的

使用如下公式求目标的长、宽、高，单位为米。

网络输出的和所确定的角度的含义为下图中的所表示的角度：

根据KITTI数据集中航向角的定义，可以根据角度和目标在三维空间中的位置求得航向角：

已知航向角、长宽高三个维度的值

以及3D框中心点在相机坐标系下的坐标

可以得到相机坐标系下3D框的8个顶点坐标，公式如下：

上式中的表示根据航向角得到的旋转矩阵，

是如下矩阵的简写形式：

3. 损失函数

3.1 关键点分类损失

关键点检测分支的输出为通道的feature map，为类别总数，为了描述简单，以下只叙述针对其中一个通道（即1个类别）的损失函数。

使用focal loss构造关键点分类损失函数，令表示网络前向计算时关键点检测分支的输出feature map在位置处的值，表示根据数据集中的标注、利用高斯函数得到的目标值。

首先分别定义和：

定义分类损失函数如下：

上式中

和是超参数，，，N表示关键点个数。

下面分别描述损失函数中项和项的作用：

当时，由于，因此，若此时接近于1，则项令损失函数急剧衰减；若此时接近与0，则令损失函数轻微衰减。使得优化器更关注接近0的样本。

当时，由于，因此，若此时接近于1，则项令损失函数轻微衰减；若此时接近与0，则令损失函数急剧衰减。使得优化器更关注接近于1的样本。

当时，由于，因此，该项不起作用。

当时，由于，因此，此时若接近于1，即

接近高斯函数中“峰值”的位置，代表

在关键点附近，则令损失函数急剧衰减，使得优化器不太关注

位置处的损失值，因为

在关键点附近，理应让大一些。

3.2 回归损失

回归损失用于让网络输出更接近真值的。

3D框高、宽、长的残差由回归分支输出的值进行非线性变换得到，变换表达式如下：

上式中、、表示回归分支输出的值，表示sigmoid函数。

角度值也要由回归分支输出的值进行非线性变换得到，变换表达式如下：

上式中的和表示回归分支输出的值。

向量中的其他值直接使用回归分支的输出值。若得到向量，根据2.3中的描述，容易得到相机坐标系下3D框的8个顶点坐标，记作，使用该值和训练集中标注框的8个顶点坐标构造损失函数，表示如下：

上式中的为平衡关键点分类损失和回归损失的权重。

受到论文《Disentangling monocular 3d object detection》的启发，作者将回归分支的输出结果分为三组：

、、，根据以及预定义的和可以求出深度值，根据深度值、、以及从标注数据中得到的3D框中心点在图像平面上的投影

，可以得到目标3D框中心点在相机坐标系下的坐标

；
、，根据和可以得到，从标注数据中得到目标3D框中心点在相机坐标系下的坐标

，可以得到航向角；
、、，根据这三个值以及预定义的

可以得到目标3D框的长、宽、高。

只使用上面任何一组参数求取3D框的8个顶点坐标是不可能的，因为参数量不够，利用标注数据中的参数进行补全，使得上述三组参数能分别求出同一目标的3个3D框的8个顶点坐标，分别记作、、，利用、、分别构造3个回归损失函数，将它们的和作为新的回归损失函数。这样做的好处是，能够将向量中的多组参数对损失函数的贡献解耦开，使得优化器能分别优化上述3组参数。

整个网络的损失函数如下：

4. 实验

4.1 实验配置

使用KITTI数据集训练网络，实验时将3D框中心点在图像平面映射时超出图像区域的目标清除掉。在训练关键点检测分支时使用了数据增强，比如random horizontal flip、random scale and shift。GroupNorm操作中的group number设置为32，对于通道数小于32的层，group number设置为16。

网络的输入图片分辨率为1280x384，在4台TITAN X GPU上训练，batch size为32。

推理时，在关键点检测分支输出的feature map中选取100个得分最高且大于0.25的点作为关键点。