详解停车位检测论文：Attentional Graph Neural Network for Parking-slot Detection

77 阅读 0 评论 51 点赞

我是靠谱客的博主昏睡大神，最近开发中收集的这篇文章主要介绍详解停车位检测论文：Attentional Graph Neural Network for Parking-slot Detection，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

在这里插入图片描述
本文介绍一篇注意力图神经网络用于停车位检测论文，论文已收录于 RA-L2021。在之前的基于卷积神经网络的停车位检测方法中，很少考虑停车位标记点之间的关联信息，从而导致需要复杂的后处理。在本文中，作者将环视图中的标记点看作图结构数据，使用图神经网络聚合相邻的标记点信息，不需要任何后处理，可以端到端训练。在ps2.0 和 PSV 停车位数据集上都取得了最优的检测性能。

论文链接为：https://arxiv.org/pdf/2104.02576.pdf

项目链接为：https://github.com/Jiaolong/gcn-parking-slot

1. Method

1.1 Overview

本文提出的基于注意力图神经网络停车位检测模型结构如下图所示，由三部分组成：Graph feature encoder，Graph feature aggregation，Entrance line discriminator。停车位一般由四个标记点组成 $P_1,P_2,P_3,P_4)$ （四个顶点按照逆时针排序）；因此停车位检测问题可以描述为检测车位进入线上顶点 $P_1,P_2)$ 的问题。本文提出的停车位检测流程为：

给定一张环视图 $mathbb{R}^{Htimes Wtimes 3}$ ，首先使用卷积神经网络进行特征提取。然后标记点检测器检测标记点，标记点编码网络提取标记点特征。
接着使用注意力图神经网络推理标记点之间的关系，本文设计的图神经网络为全连接网络，其中每一个点表示为标记点。
最后，使用车位进入线判别器决定两个标记点是否可以形成一个有效的车位进入线。

在这里插入图片描述

1.2 Graph Feature Encoder

标价点检测器输出为 $S \times S \times 3$ 的特征图，其中通道 $3$ 包含标记点位置 $(x, y)$ 和置信度 $c$ 。在使用极大值抑制(NMS)后会得到 $N$ 个标记点。

标记点特征编码器包含 $4$ 个卷积层，输出特征图为 $S \times S \times 64$ 。对于检测到的 $N$ 个标记点位置 $mathbb{R}^{Ntimes 2}$ ，使用双线性插值计算标记点特征。最终得到标记点特征 $mathbb{R}^{Ntimes 64}$ 。这里特征图大小 $S = 16$ 。

为了增强特征表示，将标记点位置和特征进行融合：
$mathbf{v}_i=mathbf{f}_i+mathbf{MLP}(x_i,y_i)$

其中， $mathbf{f}_i$ 为最初的标记点特征。

1.3 Graph Feature Aggregation

融合后的标记点特征集合 $V$ ，构造一个全连接的图网络 $G = (V, E)$ ，其中 $V$ 表示 $N$ 个节点 $(mathbf{x}_i)$ ， $E$ 表示 $N \times N$ 条边。

图神经网络每一层标记点特征更新方法为：
$mathbf{x}_{i}^{l+1}=mathbf{x}_{i}^{l}+mathbf{M L P}left(left[mathbf{x}_{i}^{l} | mathbf{m}_{E_{i} rightarrow i}^{l}right]right)$

其中 $mathbf{m}_{E_{i} rightarrow i}^{l}$ 为第 $i$ 个节点一阶邻域 ${E}_i$ 聚合的信息，由注意力机制计算得来， $[\cdot ∥ \cdot]$ 为特征结合操作。

对于每一个图节点特征 $mathbf{x}_i^l$ ，query,key,value 计算为：
$mathbf{q}_{i} &=mathbf{W}_{1}^{l} mathbf{x}_{i}^{l}+mathbf{b}_{1}^{l} \ mathbf{k}_{j} &=mathbf{W}_{2}^{l} mathbf{x}_{j}^{l}+mathbf{b}_{2}^{l} \ mathbf{v}_{j} &=mathbf{W}_{3}^{l} mathbf{x}_{j}^{l}+mathbf{b}_{3}^{l} end{aligned}$

节点 $i, j$ 之间的注意力计算为： $alpha_{i,j}=Softmax(mathbf{q}_i^{T} mathbf{k}_j)$ ，则图节点聚合信息为： $mathbf{m}_{E_{i} rightarrow i}^{l}=sum_{j in E_{i}} alpha_{i, j}^{k} mathbf{v}_{j}$ 。在本文中，使用多个注意力头，则聚合信息为： $mathbf{m}_{E_{i} rightarrow i}^{l}=mathbf{W}^{l}left(mathbf{m}_{E_{i} rightarrow i}^{l, 1}left|mathbf{m}_{E_{i} rightarrow i}^{l, 2}right| cdots | mathbf{m}_{E_{i} rightarrow i}^{l, h}right)$ 。

1.4 Entrance Line Discriminator

两个图节点特征结合得到一个 $1 \times 128$ 的输入特征，然后输入到线性判别器。最终输出为 $K \times 5$ 的矩阵，其中 $K = N \times N$ ，表示为标记点对。每一对标记点对包含5个元素： $x_1,y_1,x_2,y_2,t$ 。其中 $x_1,x_2,x_2,y_2)$ 为标记点位置， $t$ 表示形成车位进入线的概率。

整个损失函数为：
$loss=lambda_1 loss_{point} + lambda_2 loss_{line}$

其中标记点损失 $loss_{point}$ 为：
$s_{text {point }}=frac{1}{S^{2}} sum_{i=1}^{S^{2}}left{left(c_{i}-hat{c_{i}}right)^{2}+mathbb{1}_{i}left[left(x_{i}-hat{x_{i}}right)^{2}+left(y_{i}-hat{y}_{i}right)^{2}right]right}$