简要介绍

2 D 目标检测中早期的 anchor-free 方法

全卷积单阶段目标检测器，以逐个像素的方式解决目标检测问题，类似语义分割

该检测器，不需要锚框，也不需要候选区域

通过消除预定义的锚框集合，避免了与锚框相关的复杂计算。还避免了与锚框相关的超参数，这些参数对最终检测性能非常敏感

在仅使用非极大值抑制后处理的情况下，该模型通过单模型和单尺度测试，超越了以往的单尺度解决检测器，且有更简单的优势

长期以来，锚框的使用被认为是检测器成功的关键，但也存在缺点：

基于锚框的检测器的缺点

检测性能对锚框的尺寸、宽高比和数量比较敏感。这些超参数需要精心调整
锚框的尺度和宽高比固定，检测器在处理形状较大的目标候选框时仍然面临困难，特别是小目标；预定义的锚框会阻碍检测器的泛化能力，因为在不同目标尺寸或宽高比的新检测任务上需要重新设计锚框
为了提高检测率，基于锚框的检测器需要再输入图像上密集放置锚框; 训练过程中，这些锚框大部分被标记为负样本，过多的负样本加剧了训练中正负样本的不平衡
锚框设计复杂的计算，如与真实边界框计算交并比 (IoU) 分数

新检测框架的优点

检测任务与现在速多其他的可通过全卷积网络解决的任务相统一（如语义分割），更容易借鉴其中的思想
检测过程不需要锚框和候选区域，显著减少了设计参数数量。新提出的新检测器（尤其训练过程）大幅简化
通过去除锚框，避免了与锚框相关的复杂计算。实现了比基于锚框的检测器更快的训练和测试速度，同时减少了训练内存的占用
不依赖额外的技巧，新检测器在单阶段检测器中取得了最先进的结果。也可以作为两阶段检测器中的区域候选网络 (RPN)
新的检测器可以通过最小化修改直接拓展已解决其他视觉任务，如实例分割和关键点检测

我们的方法

通过多级预测提高召回率，并解决重叠边界导致的歧义问题
提出“中心度”分支，该分支有利于抑制低质量的检测框，并提升整体性能

全卷积单阶段目标检测器

真实边界框的定义 $B_{i} = (x_{0}^{(i)}, y_{0}^{(i)}, x_{1}^{(i)}, y_{1}^{(i)}) \in R^{4} \times {1, 2, \dots C}$

其中 $(x_{0}^{(i)}, y_{0}^{(i)})$ 和 $(x_{1}^{(i)}, y_{1}^{(i)})$ ，代表边界框左上角和右下角的坐标 $c^{(i)}$ 是边界框中对象的所属类别

网络会有多个层次的特征图生成，每个特征图中的每个像素位置 $(x, y)$ ，将其映射回输入图像，直接在该位置回归目标边界框；即直接将该位置视为训练样本，

如果位置 $(x, y)$ 位于真实边界框内, 且该位置的类别标签 $C^{*}$ 与真实边界框的类别标签一致，则视为正样本，否则为负样本

除了分类标签之外, 还有一个 4 D 实向量 $t^{*} = (l^{*}, t^{*}, r^{*}, b^{*})$ 作为位置回归目标。 $(l^{*}, t^{*}, r^{*}, b^{*})$ 分别代表该位置到四条边的距离

image.png|500

l^{*} r^{*} = x - x_{0}^{(i)}, t^{*} = y - y_{0}^{(i)} = x_{1}^{(i)} - x, b^{*} = y_{1}^{(i)} - y

若一个位置落入多个边界框，将其视为模糊样本，简单的选择面积最小的边界框最为其回归目标

这样 FCOS 可以使用尽可能多的前景数据（内部位置的映射点都可用来学习该目标），这和基于锚框的方法，只使用 NMS 之后的锚框作为正样本不同

网络输出 与训练目标相一致，网络的最后一层预测一个 80 维度的向量 $p$ 的分类标签和一个 4 D 向量 $t = (l, t, r, b)$ 的边界框坐标

不是训练多类分类器，而是训练 C个二值分类器，在骨干网络的特征图之后分别为分类和回归设置 4 个卷积层

预测边界框坐标的回归任务的目标都是正数，将输出的结果使用 exp 映射到 $(0, + \infty)$ ；和基于锚框的方法相比，输出的变量减少了 9x

损失函数 分类的损失函数使用 focal loss 回归的损失函数使用 UnitBox 中的 IoU loss

基于 FPN 的 FCOS 多级预测

前面提出的两个潜在问题可以通过结合 FPN 的多级预测来解决

CNN 中最终特征图的大步长（如 16 x 的缩放倍率）可能导致现对较低的最佳可能召回率。对于基于锚框的检测器，大步长引起的低召回率可通过降低锚框所需的 IoU 分数，在一定程度上得到补偿。

对于 FCOS，因为存在大步长，在最终特征图上，一部分的目标可能没有相对应的位置目标，FCOS 没有办法找回。但是实验表明，即使存在大步长，基于 FCN 的 FOS 仍然能产生好的 BFR (最佳召回率)
真实框的重叠会导致难以处理的歧义，即重叠区域中的某个位置应该回归|对应哪一个边界框？这种歧义会降低基于 FCN 的检测器性能。本研究表明，通过多级别预测可以大幅解决该歧义，基于 FCN 检测器能够获得与基于锚框的检测器相当甚至更优的性能

在多级不同尺度的特征图预测过程中，每个尺度的特征图生成的锚框会有框大小的限制，超过或者过小的锚框会被屏蔽掉

这样可以把不同尺度大小的锚框分层进行预测，可以增加召回率

FCOS 的中心度

使用多级预测之后，FCOS 和基于锚框的检测器之间，仍然有性能差距。观察到是因为远离目标中心的位置产生了大量低质量的预测边界框

为了抑制这些低质量的预测边界框，且不引入多余的超参数，引入一个单层分支和分类分支并行，用来预测位置的”中心度”。中心度描述了该位置与其负责的目标中心之间的归一化距离

给定一个位置的 $l^{*}, t^{*}, r^{*}, b^{*}$ ，中心度的目标定义为：

ce n t er n es s^{*} = \frac{min ( l ^{*} , r ^{*} )}{ma x ( l ^{*} , r ^{*} )} \times \frac{min ( t ^{*} , b ^{*} )}{ma x ( t ^{*} , b ^{*} )}

使用平方根函数缓冲中心度的衰减。中心度的取值范围为 0-1，因此使用二元交叉熵（BCE）作为损失进行训练。

测试时，最终得分通过预测的中心度与相应的分类得分相乘计算得出

中心度能够降低原理目标中心的边界框的的得分权重。这些即质量的边界框大概率会被最终的非极大值抑制（NMS）过程中被过滤掉，从而提升检测性能

人杰地灵东箭南金

探索

2019-FCOS-Fully-Convolutional-One-Stage-Object-Detection

相关工作

我们的方法

全卷积单阶段目标检测器

基于 FPN 的 FCOS 多级预测

FCOS 的中心度

关系图谱

目录

最近更新

3D Lidar-Based Object Conditions in Adverse Weather Conditions

GSD+Superpowers

openpcdet-LION环境配置