基于纯点云与Mamba架构的3D目标检测

三维感知的技术演进与状态空间模型的崛起背景

三维目标检测作为计算机视觉与无人系统感知的核心任务，其技术范式的每一次跃迁都伴随着底层架构的根本性变革。从最初的几何启发式方法到如今的深度学习模型，研究者们始终在寻求如何更有效地处理点云数据所固有的稀疏性、不规则性和无序性。在二十世纪九十年代，激光雷达（LiDAR）技术的引入为自动驾驶奠定了基础，但早期的算法多依赖于手工设计的几何特征描述子，如点要素直方图（FPFH）或自旋图像（Spin Images），这些方法在复杂动态环境下的鲁棒性极为有限。

随着深度学习在二维图像领域的成功，PointNet及其后续变体PointNet++首次实现了直接在原始无序点云上进行特征提取，通过多层感知机（MLP）和对称聚合函数解决了点云的排列不变性问题。然而，点模型在处理大规模场景时面临极高的计算开销。为了平衡效率与精度，体素化（Voxelization）和柱体化（Pillarization）范式应运而生，VoxelNet和PointPillars通过将不规则的点云投影到规则的网格中，使得三维稀疏卷积或二维卷积的应用成为可能。

进入Transformer时代后，自注意力机制（Self-Attention）因其卓越的长程依赖建模能力，在点云场景理解中展现出极强的竞争力，例如DSVT和Point Transformer v3等模型在多个基准测试中刷新了纪录。然而，Transformer架构存在一个致命的软肋：其计算复杂度与输入序列长度呈平方增长关系（ $O (n^{2})$ ），这在处理高分辨率点云或长时序自动驾驶序列时，往往导致显存溢出（OOM），尤其是对于显存受限的硬件环境。在此背景下，基于选择性状态空间模型（Selective State Space Models）的Mamba模型在2024年前后异军突起，通过线性计算复杂度（ $O (n)$ ）和强大的序列建模能力，为大规模点云的高效感知提供了全新的可能性。

状态空间模型（SSM）与Mamba的核心数学机理

Mamba模型的核心优势在于其对传统状态空间方程的现代化改造，通过引入输入依赖的参数化方式，解决了传统循环神经网络（RNN）和卷积神经网络（CNN）难以同时兼顾长效记忆与并行训练的难题。Mamba所依据的离散化状态空间系统可以表示为一系列递归操作，这些操作在数学上能够等价于一个全局卷积，但在推理阶段却表现出常数级的内存占用。

这种系统的核心数学表达由状态方程和输出方程组成：

$h_{t} = \overline{A} h_{t - 1} + \overline{B} x_{t}$

$y_{t} = C h_{t}$

其中， $\overline{A}$ 和 $\overline{B}$ 是通过零阶保持（ZOH）方法对连续参数进行离散化后的结果。Mamba的关键创新在于其“选择性机制”，即参数 $B, C$ 以及步长 $Δ$ 均是当前输入 $x_{t}$ 的函数。这意味着模型能够根据点云中体素或点的重要性，动态调整其遗忘门和保留门的强度，从而在压缩海量背景信息的同时，保留关键的目标几何特征。

架构维度	CNN	Transformer	Mamba (SSM)
计算复杂度	$O (n \cdot k)$	$O (n^{2} \cdot d)$	$O (n \cdot d)$
感受野	局部（受卷积核限制）	全局（平方级增长）	全局（线性增长）
存储开销	低	极高（受KV缓存限制）	低（固定隐状态）
实时推理	优	差（对于长序列）	优
动态权重	无（参数固定）	有（基于注意力）	有（基于输入选择）

从上表可以看出，Mamba在计算复杂度和感受野之间取得了极佳的平衡。这种线性可扩展性对于3D目标检测至关重要，因为LiDAR生成的点云数据通常包含数万乃至数十万个有效token，Mamba使得在不进行大幅度下采样的情况下处理全量场景特征成为可能。

点云序列化策略：弥合空间维度与逻辑顺序的鸿沟

由于Mamba本质上是一种因果序列模型（Causal Model），其处理三维点云的首要挑战在于如何将空间中无序的点映射为一维逻辑序列。序列化的质量直接决定了模型捕获局部几何拓扑关系的能力，不良的排序会导致空间上邻近的点在序列中被强行分离，从而引发严重的几何信息丢失。

空间填充曲线的工程应用

希尔伯特曲线（Hilbert Curve）是目前点云序列化研究中的首选方案，其原因在于其卓越的“局部性保持”特性。在Voxel Mamba等前沿工作中，研究者利用希尔伯特曲线对体素进行排序，相比于传统的行优先（Row-major）扫描或Z阶曲线（Z-order），希尔伯特曲线产生的序列中相邻元素在三维空间中也具有极高的概率保持邻近。

Z阶曲线（Morton Curve）虽然在局部性保持上略逊于希尔伯特曲线，但其计算逻辑极为简单（仅需对坐标进行位交织），在对实时性要求极高且算力受限的嵌入式设备中仍具有广泛的应用。研究显示，在分类任务中希尔伯特曲线优势明显，而在分割任务中，轴向排序（Axis-wise sorting）有时能提供更强的方向性引导。

一致性遍历序列化（CTS）与多路径融合

Point Cloud Mamba (PCM) 模型引入了一种名为一致性遍历序列化（Consistent Traverse Serialization, CTS）的方法。CTS不依赖于单一的扫描路径，而是通过对x、y、z三个坐标轴进行排列组合，推导出六种不同的遍历方案（如“xyz”、“xzy”、“yxz”等）。通过协同使用这六种变体，Mamba能够从不同的空间视角审视同一组点云数据，这种多路径策略有效地弥补了因果建模带来的单向偏差，显著提升了模型对复杂不规则形状的感知能力。

序列化质量的量化评估

为了科学评估不同序列化算法的优劣，学术界提出了邻域保留率（Neighbor Preservation Ratio, NPR）和序列跳跃距离（Sequence Jump Distance, SJD）两个关键指标 1 。

NPR：衡量在三维空间中互为最近邻的点，在映射到一维序列后仍保持在特定邻域窗口内的比例。实验证明，NPR与最终的检测精度呈正相关。
SJD：计算序列中相邻元素在原始三维空间中的平均欧几里得距离。较低的SJD意味着扫描路径更为顺滑，有助于减少SSM在隐状态传递过程中的累计误差。

核心检测架构解析：从3DET-Mamba到WinMamba

在三维检测领域，将Mamba架构与传统感知组件融合已成为当前的研究热点。针对不同的应用场景，研究者开发了多样化的Backbone设计。

3DET-Mamba：因果建模的端到端范式

3DET-Mamba是首个专门针对室内3D目标检测设计的SSM模型。它采用了局部到全局的扫描技术：

内部Mamba块（Inner Mamba）：将点云划分为若干局部Patch，利用轻量化的Mamba层提取每个Patch内部的精细几何细节。
双重Mamba模块（Dual Mamba）：从全局视角对不同Patch的空间分布和连续性进行建模，捕捉场景级的上下文联系。在ScanNet数据集上，3DET-Mamba将AP50从47.0%提升至54.4%，证明了SSM在处理复杂室内布局时的潜力。

UniMamba与WinMamba：多尺度特征的协同

UniMamba提出了一种统一的结构，将3D流形稀疏卷积（Submanifold Sparse Convolution）与双向SSM相结合。它通过局部-全局序列聚合器（LGSA）在通道分组的基础上同时捕获体素间的近程几何关系和长程语义依赖。这种设计在处理遮挡严重的自动驾驶目标（如停在树下的汽车）时展现出极强的鲁棒性。

WinMamba则针对窗口式Transformer的缺陷进行了改进。传统的窗口划分虽然节省显存，但会强行割裂跨边界的目标。WinMamba引入了窗口位移融合（Window Shift Fusion, WSF）策略，通过在堆叠的Mamba层之间交替偏移窗口位置，实现了信息的跨边界流动。同时，其自适应窗口融合（AWF）模块能够根据特征图的分辨率动态调整窗口尺寸，确保在聚合高层语义的同时不丢失底层的细粒度结构。

性能基准对比分析

下表对比了当前主流Mamba类检测模型在各基准数据集上的性能表现。可以看出，基于Mamba的模型在保持高精度的同时，通常具备更快的推理速度。

模型名称	数据集	核心指标 (mAP/NDS)	运行频率 (FPS)	显存占用 (GB)
Voxel Mamba	Waymo	79.6 mAPH (L1)	25.4	~8.4
UniMamba	nuScenes	74.0 NDS	22.1	~7.2
VDM-Mamba	Waymo	74.7 mAPH (L2)	-	-
PCM-Tiny	S3DIS	79.6 mIoU	35.0+	~4.8
3DET-Mamba	ScanNet	70.4 AP@0.25	-	-

针对RTX 3090 24G显存环境的极限训练优化方案

对于广大科研工作者而言，RTX 3090是三维检测任务最常用的硬件平台。然而，24GB显存面对庞大的Waymo Open Dataset全量训练时依然显得捉襟见肘。为了在有限的显存资源下训练出高性能模型，必须采取多维度的工程优化手段。

显存分布解析与优化器策略

显存消耗主要分为静态权重显存、优化器状态显存、前向激活值显存和梯度显存。在训练大型Mamba Backbone时，优化器状态往往占据了超过三分之一的显存开销。标准AdamW优化器需要为每个参数存储均值和方差，导致其显存占用约为参数量的8倍。在RTX 3090上，建议采用以下两种策略：

8-bit BNB量化优化器：通过BitsAndBytes库将优化器状态量化为8位，可将优化器显存需求降低75%，从理论上的24GB（针对3B模型）缩减至约6GB 。
Adafactor优化器：这种优化器通过行/列求和压缩二阶矩，能显著降低内存占用且通常不需要调整学习率调度。

以计算换显存：梯度检查点技术

梯度检查点（Gradient Checkpointing）是突破RTX 3090显存限制的核心工具。在点云序列极长的情况下，前向传播过程中产生的海量激活值是导致OOM的主因。通过开启梯度检查点，PyTorch仅在关键层保存激活值，其余中间层的激活值在反向传播时实时重新计算。对于一个包含48层Mamba块的Backbone，开启该功能通常可以将Batch Size从1提升至4，而计算时间的增加通常在20%到30%之间，这是一个非常值得的权衡。

针对LiDAR数据集的工程化优化

针对Waymo和KITTI数据集的特性，可以从数据端进一步榨取显存性能：

Waymo数据集的20%采样策略：Waymo训练集包含16万帧数据，且帧间重复率极高。在RTX 3090上，推荐每5帧加载1帧（即20%采样）进行实验迭代。实验表明，这种采样方式能使训练时间缩短80%，而最终检测精度受到的影响通常小于1% AP 。
体素网格的精细化配置：体素的大小直接决定了token的数量。对于Mamba模型，推荐使用 $(0.32 m, 0.32 m, 0.1875 m)$ 的体素配置。此外，设置 max_voxels 参数可以防止模型在点云极其密集的个别帧中突发性爆显存。
缓存与子集训练：使用预处理脚本将原始TFRecord或.bin文件提前转换为内存映射文件或进行显存友好的缓存（Caching），能显著降低由于I/O等待造成的GPU利用率低下问题。

深度视角：前景增强与体素扩散的前沿探索

在大规模场景中，前景物体（车辆、行人等）仅占据空间个体总数的极小比例。传统的Backbone模型会对所有非空体素进行无差别建模，这不仅浪费了显存，还引入了大量的背景噪声干扰。

前景感知采样机制

Fore-Mamba3D提出了一种针对前景增强的编码方案。它通过一个轻量级的前景预测网络（Foreground Scoring Network）为每个体素评分，并采用Top-k策略仅保留高分前景个体。这种“重要性采样”能够将Mamba处理的token长度压缩至原始长度的30%以下，同时通过扩大Grounding Box边界（如X/Y轴扩展0.5m，Z轴扩展0.25m）保留了目标的支撑特征和边缘信息。实验证明，这种策略在复杂场景下的AP提升明显，且显存开销极大优化。

统一体素扩散模块（VDM）

针对Mamba在处理序列化体素时难以直接进行空间扩散的问题，研究者提出了体素扩散模块（Voxel Diffusion Module, VDM）。VDM在序列化之前，利用交替的子流形3D卷积（SubM3D）和稀疏残差块（SRB）对体素特征进行初步扩散，增加了特征的密度和邻域感知力。这种“先卷积扩散，后SSM建模”的混合模式，有效解决了Mamba由于单向建模导致的响应衰减问题，使得模型在处理大规模、稀疏点云时表现得更加稳健。

训练稳定性与混合精度技术的深入分析

在RTX 3090上训练Mamba模型时，数值稳定性是一个不可忽视的问题。Mamba底层的硬件感知并行扫描算法对精度极为敏感，尤其是在涉及指数运算的离散化过程中。

自动混合精度（AMP）的配置建议

建议使用 torch.cuda.amp 进行半精度训练。在具体实践中，应将Mamba层的线性投影和SSM核心算子置于FP16或BF16（RTX 3090完美支持BF16，推荐优先使用以防止溢出），而将层归一化（LayerNorm）和Softmax等对精度极其敏感的操作保留在FP32 。这种配置不仅能节省约40%的显存，还能通过RTX 3090的Tensor Cores获得显著的吞吐量提升。

显存碎片管理

显存碎片是长期困扰3D检测训练的顽疾。通过设置环境变量 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True，可以引导PyTorch使用更激进的内存释放和分块策略。此外，定期在验证环节（Validation Loop）显式调用 torch.cuda.empty_cache() 也是一种简单有效的“防爆”手段。

结论与未来演进方向

基于纯点云与Mamba模型的3D目标检测研究正处于爆发式增长的前夜。Mamba以其优异的线性复杂度，直接挑战了Transformer在长序列感知领域的霸权，尤其是在解决自动驾驶全场景全量点云处理的算力瓶颈上展现出不可替代的价值。

对于在RTX 3090平台上开展工作的研究者，本报告总结的显存优化路径如下：

架构端：优先选用基于体素且具备前景采样能力的轻量化模型（如Fore-Mamba3D或Voxel Mamba的小尺寸变体），避免全量背景建模带来的冗余。
数据端：对Waymo等大数据集采用20%随机采样策略，配合体素动态网格控制token总量。
工程端：强制开启梯度检查点技术（Gradient Checkpointing），切换至8-bit量化优化器，并充分利用AMP混合精度。

未来的研究课题将聚焦于以下几个前沿领域：

可学习的序列化拓扑：摒弃希尔伯特等固定扫描路径，研究如何让模型根据点云的几何流形自发学习最优的遍历顺序，如利用图拉普拉斯算子对Patch连接性进行建模。
Mamba-Transformer杂合体（HybridTM）：在浅层利用Transformer捕获高精度的局部交互特征，在深层利用Mamba进行高效的全局场景总结，这种双塔或杂交架构可能成为未来检测器的SOTA方案。
端到端4D时空建模：利用Mamba的递归特性，将单帧检测自然扩展到长时序目标跟踪（Tracking-by-Detection），在维持线性复杂度的前提下实现时空一致性感知。

随着算法库（如MMDetection3D）对Mamba内核支持的不断完善，三维感知的“线性时代”正在加速到来。在算力民主化的趋势下，基于Mamba的轻量化感知模型必将在自动驾驶和边缘机器人领域发挥深远的影响。

人杰地灵东箭南金

探索