2020-CenterNet3D-An Anchor Free Object Detector for Point Cloud

简要介绍

由 2 D 目标检测方法 2020-CenterNet3D-An Anchor Free Object Detector for Point Cloud 发展而来的 3 D 目标检测方法

CenterNet 3 D 检测头

分为三个模块：

中心分类模块用来预测目标类别的中心点概率
边界框回归模块生成 8 通道数据用来回归边界框属性：偏移回归，来回归中心点的 2 D 位置（xy）偏移; z 坐标回归，用来预测中心在 z 轴上的位置；尺寸回归，用来回归目标的三维尺寸；方向回归，用来绕 z 轴的旋转角度

边界框的回归有两种实现方式:

直接使用一个通过模块预测所有边界框属性

使用不同的模块预测不同的属性，以学习目标实例的不同外观特征

角点分类模块用来预测目标类别的角点概率。

中心分类

通过多个卷积层输出中心热力图，每个热力图对应一个类别，热力图大小就是下采样之后的二维平面的大小，其对应的原始图中的位置，需要映射回去

使用高斯核将真实中心点扩散到热力图中

通过物体尺寸确定高斯半径，确保高斯半径中的一个点生成的边界框与真实框的交并比至少为 $t$

由于接近真实位置的虚假中心预测，也能差生高 IOU 的边界框（但是类别错误），使用焦点损失的惩罚

边界框回归

边界框回归模块仅作为正中心点的点特征。每一个边界框，回归一个 8 维的向量 $d x, d y, z, l, w, h, cos (r), sin (r)$ ，以表示需要识别的实例。 $d x, d y$ 是最后一个特征图上的中心点上离散化偏差； $z$ 为 $Z$ 轴上的绝对坐标值， $l, w, h$ 为 3 D 尺寸：长，宽，高； $cos (r), sin (r)$ 为绕 $Z$ 轴旋转角度 $r$ 的三角函数值

偏移回归为了恢复由于输出步长（下采样倍率）导致的二维离散化误差 $\frac{p}{R} = \tilde{p}$ ，偏移回归用来预测每个中心点的偏移特征图。所有类别 c 共享相同的偏移预测。由于真实偏移值介于 0-1 之间，使用逻辑激活函数将偏移预测值约束在此范围内。偏移通过 L 1 损失进行训练
方向回归为了预测绕 z 轴的旋转角度并==解决-弧度与 $π$ 弧度情形间的对抗样本问题==，将每个旋转角度 $r$ 编码为 $(cos (r), sin (r))$ ，并在推理截断通过反正切函数对 $r$ 尽心解码。旋转角度被分解为两个相关值，。因此方向回归为每个中心点预测一个方向特征图。方向同样使用 L 2 损失进行训练
Z 坐标回归用于预测边界框中心在 z 轴上的位置。为每个中心点输出一个 z 坐标特征图

所有类别共享相同的 z 坐标预测。但是，由于回归目标是无界的，模型对异常值铭感，这些可被视为难样本的异常值会导致过大的梯度，对训练过程做成不利影响。而可被视为简单样本的内点，与异常值相比，对整体的梯度贡献比较小

因此使用平衡 L 1 损失，训练 z 坐标回归

平衡 L 1 损失对误差较小的时候，梯度更大一些，可一定程度缓解大误差带来的大梯度

角点分类

与二维图像不同，在三维场景中，目标中心附近通常不存在像素，因为雷达数据只捕获物体表面，3 D 目标中心可能是空白区域。此外中心点可能原理目标边界，因此难以预估准确的边界

我们希望模型能够学习目标形状和结构嘻嘻，因此引入了另一个用于角点分类的监督信号。和中心分类类似，角点分类模块用于 XY 平面内对边界框的四个角点进行分类，它输出角点热力图，每个角点热力图对应一个类别。令 $\hat{A} \in [0, 1]^{L / R \times W / R \times C}$ 为角点热力图，其中 $R$ 为下采样步长， $C$ 为类别数量。预测值 $\hat{A}_{x, y, c} = 1$ 对应一个检测到的角点，而 $\hat{A}_{x, y, c} = 0$ 为背景，按照上述中心分类的方法生成真实角点热力图 $A \in [0, 1]^{L / R \times W / R \times C}$ 。训练中角点损失是与中心分类类似的惩罚减轻型角点损失（lenalty-reduced focal loss）

解码损失

在上述边界框回归中，边界框的不同属性被视为相互独立，由检测头的不同模块尽心预测。为帮助检测器学习 3 D 边界框不同属性之间的隐含关系，提出了解码损失

训练阶段，现将边界框回归的输出解码为八个角点，然后针对真实值计算八个角点坐标的平衡 L 1 损失

由于回归输出到八个角点的解码仅为一些常规数学运算，这个解码过程是可微的，梯度可通过该解码过程反向传播

解码损失(平衡L 1 损失)是解码得到的八个角点与真实值之间的距离，表示为

L_{decode} = \frac{1}{N} p \sum c \sum L_{b} (∣∣ \hat{P}_{c} - P_{c} ∣∣)

关键点敏感变形

为了解决边界框与对应置信图之间的错位问题，提出一种关键点敏感变形操作，即 KSWarp，作为 PSWarp 和 PSroIAlign 的高效变体，通过对特征图执行空间变换，使分类置信度与预测边界框对齐。KSWarp 不参与训练阶段，只在推理阶段运行

推理阶段，将每个预测边界框解码为 XY 平面中的 5 个关键点：一个中心点和四个角点，每个关键点对物体特定部位的信息进行编码，{中心、左上、右上、左下、右下}。谈后我们选择解码后的中心点作为中心热力图 $\hat{Y}$ 中的采样点，角点作为角点热力图 $\hat{A}$ 中的采样点。通过这种梗方式得到 5 个采样关键关键点，每个关键点都和对应的热力图相关联。我们的 KSWrarp 包含两个特征采样器：中心采样器和角点采样器。

中心采样器以中心热力图和解码后的中心点作为输入，生成在中心点处从中心热力图采样采样得到的中心图。

角点采样器以角点热力图和解码后的角点作为输入，生成在中心点处从角点热力图采样得到的角点图

最终置信图 $C$ 通过对 5 个采样点取平均计算得出

首先网络预测出了中心点和四个角点，同时网络输出了对应的两个热力图，把预测的点放到热力图上，可以得到 5 个点在热力图上映射的特征（分数，使用双线性插值），用这五个点的平均分数作为置信度。这样使用 5 个点就可以表示预测框的置信度，且使用附近点的信息而不是只用中心点

人杰地灵东箭南金

探索

2020-CenterNet3D-An Anchor Free Object Detector for Point Cloud

CenterNet 3 D 检测头

中心分类

边界框回归

角点分类

解码损失

关键点敏感变形

实验结果

KITTI 数据集

NUSCENES 数据集

关系图谱

目录

反向链接

最近更新

3D Lidar-Based Object Conditions in Adverse Weather Conditions

GSD+Superpowers

openpcdet-LION环境配置