仓库连接: https://github.com/gwenzhang/Voxel-Mamba
简要介绍
- 把体素空间序列化为单条序列并用 SSM(Mamba)做 group-free 处理,兼顾空间邻近性与线性复杂度,针对 Waymo / nuScenes 做了检测实证
关键点
- 提出无分组策略将整个体素空间序列化为单个序列

序列化不可避免的牺牲其空间邻近性。为了解决这个问题,引入了一个体素 SSM 称为 Voxel Mamba,用于 3 D 目标检测。SSM 的线性计算复杂度是的所有体素视为一个组,并将其排序为一个序列称为可能,这引出了一种无分组的体素建模方式
增强 Voxel Mamba 的空间邻近性 为了增强空间邻近性,提出两个模块
-
双尺度 SSM 块(DSB) 在 SSM 中引入下采样操作。前向 SSM 分支处理高分辨率的体素特征;后向分支从低分辨率表示中提取特征 通过将分层设计与双向设计相结合。其中分层为序列带来了更大的有效感受野,从而带来了更大的有效感受野,从而增强了局部三维区域内的空间邻近性
-
隐式窗口划分(IWP) 窗口划分在先前的方法中广泛使用,用来增强窗口内体素的邻近性,然而它阻碍了跨窗口体素的邻近性,这与我们的无分组原则相悖。
因此提出一种隐式窗口划分方案,以保留其优点摒弃其缺点。
具体,将窗口内外的体素位置编码为嵌入,用于特征学习,不需要显示的进行空间窗口划分
通过这种方式在无分组设计下,可以以最小的计算成本实现更好的体素邻近性
主要贡献
- 提出 Voxel Mamba,基于体素的 3 D 检测的无分组骨干网络。放弃了分组操作,将增个体素序列化为当个序列,从而提升了效率
- 为了缓解序列化导致的邻近信息缺失,提出双尺度 SSM 块(DSB)和隐式窗口划分(IWP),以增强 Voxel Mamba 的空间邻近信息保持能力
- 该方法在 waymo 和 niscenes 上取得了 sota
希耳伯特曲线
有最好的局部性保持特性
总体架构
通过体素特征编码,将点云转换为稀疏体素。然后使用希耳伯特输入层将整个场景序列体素化为当个序列
提出基于体素的双尺度 SSM 块,该块允许体素在全局上下文下进行处理。为了扩大感受野,DSB 前向路径使用更细粒度的体素序列感知,并在后向路径中对体素序列进行下采样;后向路径从低分辨率的 BEV 表示中提取特征,并在更深的块中增加下采样因子
为了增加序列中的空间邻近性,采用隐式窗口划分,来保留提取的体素特征中的 3 D 位置信息,并将其投影到 BEV 特征图
希耳伯特层
空间填充曲线 空间填充曲线以保持空间局部性而闻名,被广泛用于降维。其可以在不重复的情况下遍历空间中所有元素并保持空间拓扑结构。为了提高序列化中的体素邻近性,提出了希耳伯特输入层来重新排列体素序列
体素特征使用坐标(x, y, z)表示。我们将一个体素映射到其在希耳伯特曲线中的遍历位置 h.
具体来说, 需要将(x, y, z)转换为具有 位的二进制格式,希耳伯特索引
在本文的实现中,记录了所有潜在体素坐标对应的遍历位置 h。体素通过查询和排序他们的序列位置进行序列化。特别。对于长度为 的序列,序列化过程只需要 0.7 ms
双尺度 SSM 块
存在问题 尽管空间填充曲线一定程度上可以保留三维结构,但是从 3 D 到 1 D 的降维,不可避免的发生邻近性损失。因此局部片段这能覆盖三维空间的一部分区域。将所有体素放到一个组中 不能确保有效感受野能覆盖所有体素。
因此引入了双尺度 SSM 块来构建状态空间结构层次,从而提高模型的有效感受野(ERF)

DSB 模块采用残差连接、一个前向 SSM 分支和一个后向 SSM 饿分支进行设计。处理有希耳伯特层生成的两个序列化体素序列,从而实现体素序列中信息的无缝流动。
- 前项分支处理原始体素序列,保持高分辨率细节
- 后向分支处理从低分辨率 BEV 表示派生出的将采样体素序列
这种双尺度路径是 DSB 能够整合更大尺度的体素特征,增强模型对体素之间长依赖关系的建模能力。
总的来说,DSB 广泛采用双向设计与分层设计相结合,构建了足够的感受野来减轻邻近性损失,而无需引进额外的参数
隐式窗口划分
窗口划分策略 该策略在过去的 3 D 检测器中被广泛使用于增强体素邻近性。相关方法中,整个区域被划分为多个局部窗口,窗口内的体素形成一个组。故窗口内的体素具有足够的邻近性;不同的窗口中体素将具有最小的邻近性。
本节中旨在将窗口划分的优点引入到我们的框架,同时避免其缺点
因此提出隐式窗口划分(IWP)策略,与过的方法不同,不显式的将体素划分为窗口并在每个窗口内应用 Transformer 或 SSM。
相反,计算窗口内部和跨窗口的体素坐标,然后将坐标编码为嵌入,称为隐式窗口嵌入(IWE),公式如下:
其中,
- 代表窗口的 x 方向坐标,
- 代表窗口的 y 方向坐标,
- 代表当前体素在窗口内的局部 x坐标,
- 代表当前体素在窗口内的局部 y 坐标
- Z 代表 z 坐标位置
上述信息拼接后,通过 MLP 编码成位置嵌入
就是位置嵌入,在输入到希耳伯特层之前加到序列上
体素 Mamba 骨干网络
通过希耳伯特输入层、DSB 和 WP 策略,我们构建了 Voxle Mamba,一个无分组的稀疏体素骨干网络

包含 N 个 DSB 块,这些块根据其下采样率被组织成不同的阶段。SpConv 用于每个阶段沿 z 轴逐步降低特征图的分辨率。在稀疏 Token 输入 BEV 骨干网络之前,将他们散步成密集 BEV 特征(从序列恢复成密集表示)
在 waymo 数据集上,采用 Centerpoint-Pollar 的 BEV 骨干网络,并在检测头和损失函数使用和 DSVT 相同的设置
在 nuScenes 数据集上,仅将 DSVT 的 3 D 骨干网络替换为我们的 Voxle Mamba 骨干网络
Waymo

NuScenes
