简要介绍

UniMamba 提出一种统一空间与通道表征的 Group-Efficient Mamba 架构,用于 LiDAR 3D 目标检测,在保持稀疏高效的同时提升时空特征建模能力,显著优于现有 Transformer 与 CNN 方法。

主要贡献

  • 提出 UniMamba, 一种新颖的统一 3 D 骨干网络,用于 LiDAR 3 D 目标将按测,集成了 3 D 卷积和双向SSM,以分组高效的方式实现有效的空间建模
  • 设计了一个局部全局顺序聚合器,一通道分组的方式同时捕获局部和全局体素关系,得益于空间局部性建模和互补的 Z 阶序列化,以防空间邻近性消失
  • 在 nuScenes、Waymo 和 Argoverse 2 三个流行的基准测试上进行了试验

UniMamba 块

UniMamba 包含四个主要组件:体素特征编码器、3 D 骨干网络、BEV 骨干网络和检测头

本文值贡献了 3 D 骨干网络,其余部分采用之前的工作的方法

首先采用空间局部建模模块,捕获动态结构嵌入,利用互补的 Z-order 将 3 D 体素转换为 1 D 序列

为了同时捕获不同感受野的上下文信息,使用局部-全局序列聚合器(LGGSA)编码局部和全局序列

此外,使用编码器-解码器结构来堆叠 UniMamba 块, 形成最终的骨干网络架构

空间局部性建模

存在问题:压缩空间成 1 D 序列不可避免的导致局部空间位置信息丢失。

为了解决该问题,其他方法通常设计复杂的序列化计数保持局部性。然而,这些方法会带来高昂的计算成本,且效果有限

受稀疏卷积提供位置信息的工作的启发,在 UniMamba 块中引入了简单的子流形卷积,作为空间局部性建模(SLM):

子流形卷积有集合是一个形,能有效捕捉局部特征并保持形状信息。因此,用它弥补丢失的局部位置信息

互补 Z 序序列化

序列化非空体素的目的是找到一条遍历所有输入体素的路径。为了保持空间拓扑结构,3 D 体素的序列化可以看作是一个空间填充曲线的过程。现有的空间填充曲线包括希耳伯特曲线Z 阶曲线

虽然希耳伯特曲线有更好的局部性,但是构建其索引在计算上非常昂贵

由于局部性增强设计(空间局部性建模),在序列化过程中不严重依赖于保持空间拓扑信息。因此,使用计算效率高的 Z 阶曲线。

具体,给定输入体素集的坐标,通过位交织函数计算相应的 Z 阶码。最后将 Z 解码按升序排序,为每个体素或则 z 阶索引

传统 Z 阶曲线以 x 轴作为主要顺序计算索引,然而只是用 x 方向索引会导致空间邻近性只沿着 x 轴被保留。因此引入一个变体,变体使用 Y 轴作为索引的主要顺序

局部-全局顺序聚合器

更丰富的上下文信息对增强 3 D 检测能力至关重要。利用 Mamba 的计算优势,将整个场景视为一个组,来提取长距离全局依赖关系是直观的。但细粒度的局部信息也至关重要

因此提出该聚合器,同时建模局部和全局的相互依赖关系

全局序列编码器(GSE) 将场景中素有非空体素都视为一维序列,直接建立全局感受野

与传统的基于窗口的序列化不同,不显式的创建局部窗口。

GSE 层包含两个级联的 Mamba 层,使用互补 z 顺序对序列化体素进行编码

局部顺序编码器(LSE) 与 GSE 不同,LSE 是一种基于窗口划分的分组架构。遵循 Transformer 的传统窗口划分方法,将所有体素划分为不重叠的 3 D 窗口

使用 z 序在局部窗口内遍历。在基于窗口的分组后,将输入数据划分为多个等长的一维序列

其余和 GSE 类似,每个短序列,都经过两个双向 mamba 块

局部-全局聚合 为了同时提取每个体素的局部细节和全局上下文,采用通道分组策略聚合不同感受野的特征。根据通道,将其分成 M 组,得到一组体素特征集合,每组的通道维度 C/M。对于前 J 组使用 GSE 处理,剩余的组使用 LSE 处理

最后将所有的通道维度连接,得到疏忽

最后使用一个 FFN 捕获不同感受野内的特征交互

UniMamba 3D 主干网络

提出的 UniMamba 3 D 骨干网络具有灵活感受野和强大的空间建模能力

使用编解码器架构,对敌 UniMamba 块以进行层次特征的提取,

作为通用的基于体素的 3 D 主干,替换了 LION 的主干来构建检测器

对于 Argoverse 3, 基于 SAFDNet。阶侧头和损失函数配置与基线一致

NuScenses

image.png

Waymo Open

image.png

Argoverse 2

image.png