简要介绍
- 基于相机的 3 D 检测,多视图输入
- 把 Mamba 用在 BEV 表示与时间融合中(提出 TemporalMamba 等模块来做长期序列建模与 BEV 特征重排),专注自动驾驶场景的时序 BEV 融合
本文贡献
- 引入基于 mamba 2 的 3 D 物体检测模型
- 提出了基于 mamba 2 的时间融合模块,称为 TemproalMamba,展示了进行时间融合的可能性和未来见解
- 为了适应 mamba 序列扫描的特性,设计了 BEV 特征离散重排机制
- 解码器层,设计了基于 mamba 的 DETR 头,该头基于 mamba 交叉注意力模块
- 在 3 D 物体监测任务和 VAD 采用的端到端自动驾驶范式中进行了广泛试验
近期 mamba 发展
-
VisionMamba (vim) 展示了一种增强视觉表示学习的双向状态空间模型。解决了视觉数据中的位置敏感性和全局上下文需求方面的挑战,标志着相对于传统自注意力机制的重大进步
-
VMamba 通过其视觉状态空间(VSS)块和创新的二维选择扫描(SS 2 D)将 Mamba 的能力迁移到视觉领域,优化了上下文信息收集
-
Voxel Mamba 采用一种无分组策略来处理 3 D 体素数据,在不增加 Transforer 典型开销的情况下,保持空间近邻性并提高检测精度,且例证了 SSM 在空间数据处理方面的革命性潜力
-
MS-Temba 将 Manba 应用于动作检测,引入了有效捕获短期和长期时间关系的时间 Mamba 块
- VisionMamba 提出了使用双向状态空间模型,增强视觉表征
- Vmamba 提出了扫描的方法,将 Mamba 迁移到视觉领域
- VoxelMamba 提出了扫描的新方法,增强空间邻近性