简要介绍

由 2 D 目标检测方法 2020-CenterNet3D-An Anchor Free Object Detector for Point Cloud 发展而来的 3 D 目标检测方法

image.png

CenterNet 3 D 检测头

分为三个模块:

  1. 中心分类模块 用来预测目标类别的中心点概率
  2. 边界框回归模块 生成 8 通道数据用来回归边界框属性:偏移回归,来回归中心点的 2 D 位置(xy)偏移; z 坐标回归,用来预测中心在 z 轴上的位置;尺寸回归,用来回归目标的三维尺寸;方向回归,用来绕 z 轴的旋转角度

边界框的回归有两种实现方式:

  1. 直接使用一个通过模块预测所有边界框属性
  2. 使用不同的模块预测不同的属性,以学习目标实例的不同外观特征
  1. 角点分类模块 用来预测目标类别的角点概率。

中心分类

通过多个卷积层输出中心热力图,每个热力图对应一个类别,热力图大小就是下采样之后的二维平面的大小,其对应的原始图中的位置,需要映射回去

使用高斯核将真实中心点扩散到热力图中

通过物体尺寸确定高斯半径,确保高斯半径中的一个点生成的边界框与真实框的交并比至少为

由于接近真实位置的虚假中心预测,也能差生高 IOU 的边界框(但是类别错误),使用焦点损失的惩罚

边界框回归

边界框回归模块仅作为正中心点的点特征。每一个边界框,回归一个 8 维的向量 ,以表示需要识别的实例。 是最后一个特征图上的中心点上离散化偏差; 轴上的绝对坐标值, 为 3 D 尺寸:长,宽,高; 为绕 轴旋转角度 的三角函数值

  1. 偏移回归 为了恢复由于输出步长(下采样倍率)导致的二维离散化误差 ,偏移回归用来预测每个中心点的偏移特征图。所有类别 c 共享相同的偏移预测。由于真实偏移值介于 0-1 之间,使用逻辑激活函数将偏移预测值约束在此范围内。偏移通过 L 1 损失进行训练

  2. 方向回归 为了预测绕 z 轴的旋转角度并==解决-弧度与 弧度情形间的对抗样本问题==,将每个旋转角度 编码为 ,并在推理截断通过反正切函数对 尽心解码。旋转角度被分解为两个相关值,。因此方向回归为每个中心点预测一个方向特征图。方向同样使用 L 2 损失进行训练

  3. Z 坐标回归 用于预测边界框中心在 z 轴上的位置。为每个中心点输出一个 z 坐标特征图

所有类别共享相同的 z 坐标预测。但是,由于回归目标是无界的,模型对异常值铭感,这些可被视为难样本的异常值会导致过大的梯度,对训练过程做成不利影响。而可被视为简单样本的内点,与异常值相比,对整体的梯度贡献比较小

因此使用平衡 L 1 损失,训练 z 坐标回归

image.png

平衡 L 1 损失对误差较小的时候,梯度更大一些,可一定程度缓解大误差带来的大梯度

角点分类

与二维图像不同,在三维场景中,目标中心附近通常不存在像素,因为雷达数据只捕获物体表面,3 D 目标中心可能是空白区域。此外中心点可能原理目标边界,因此难以预估准确的边界

我们希望模型能够学习目标形状和结构嘻嘻,因此引入了另一个用于角点分类的监督信号。和中心分类类似,角点分类模块用于 XY 平面内对边界框的四个角点进行分类,它输出角点热力图,每个角点热力图对应一个类别。令 为角点热力图,其中 为下采样步长, 为类别数量。预测值 对应一个检测到的角点,而 为背景,按照上述中心分类的方法生成真实角点热力图 。训练中角点损失是与中心分类类似的惩罚减轻型角点损失(lenalty-reduced focal loss)

解码损失

在上述边界框回归中,边界框的不同属性被视为相互独立,由检测头的不同模块尽心预测。为帮助检测器学习 3 D 边界框不同属性之间的隐含关系,提出了解码损失

训练阶段,现将边界框回归的输出解码为八个角点,然后针对真实值计算八个角点坐标的平衡 L 1 损失

由于回归输出到八个角点的解码仅为一些常规数学运算,这个解码过程是可微的,梯度可通过该解码过程反向传播

解码损失(平衡L 1 损失)是解码得到的八个角点与真实值之间的距离,表示为

关键点敏感变形

为了解决边界框与对应置信图之间的错位问题,提出一种关键点敏感变形操作,即 KSWarp,作为 PSWarp 和 PSroIAlign 的高效变体,通过对特征图执行空间变换,使分类置信度与预测边界框对齐。KSWarp 不参与训练阶段,只在推理阶段运行

推理阶段,将每个预测边界框解码为 XY 平面中的 5 个关键点:一个中心点和四个角点,每个关键点对物体特定部位的信息进行编码,{中心、左上、右上、左下、右下}。谈后我们选择解码后的中心点作为中心热力图 中的采样点,角点作为角点热力图 中的采样点。通过这种梗方式得到 5 个采样关键关键点,每个关键点都和对应的热力图相关联。我们的 KSWrarp 包含两个特征采样器 :中心采样器和角点采样器。

image.png

中心采样器以中心热力图和解码后的中心点作为输入,生成在中心点处从中心热力图采样采样得到的中心图。

角点采样器以角点热力图和解码后的角点作为输入,生成在中心点处从角点热力图采样得到的角点图

最终置信图 通过对 5 个采样点取平均计算得出

首先网络预测出了中心点和四个角点,同时网络输出了对应的两个热力图,把预测的点放到热力图上,可以得到 5 个点在热力图上映射的特征(分数,使用双线性插值),用这五个点的平均分数作为置信度。这样使用 5 个点就可以表示预测框的置信度,且使用附近点的信息而不是只用中心点

实验结果

KITTI 数据集

image.png

NUSCENES 数据集

image.png