简要介绍

  • 基于相机的 3 D 检测,多视图输入
  • 把 Mamba 用在 BEV 表示与时间融合中(提出 TemporalMamba 等模块来做长期序列建模与 BEV 特征重排),专注自动驾驶场景的时序 BEV 融合

本文贡献

  1. 引入基于 mamba 2 的 3 D 物体检测模型
  2. 提出了基于 mamba 2 的时间融合模块,称为 TemproalMamba,展示了进行时间融合的可能性和未来见解
  3. 为了适应 mamba 序列扫描的特性,设计了 BEV 特征离散重排机制
  4. 解码器层,设计了基于 mamba 的 DETR 头,该头基于 mamba 交叉注意力模块
  5. 在 3 D 物体监测任务和 VAD 采用的端到端自动驾驶范式中进行了广泛试验

近期 mamba 发展

  • VisionMamba (vim) 展示了一种增强视觉表示学习的双向状态空间模型。解决了视觉数据中的位置敏感性和全局上下文需求方面的挑战,标志着相对于传统自注意力机制的重大进步

  • VMamba 通过其视觉状态空间(VSS)块和创新的二维选择扫描(SS 2 D)将 Mamba 的能力迁移到视觉领域,优化了上下文信息收集

  • Voxel Mamba 采用一种无分组策略来处理 3 D 体素数据,在不增加 Transforer 典型开销的情况下,保持空间近邻性并提高检测精度,且例证了 SSM 在空间数据处理方面的革命性潜力

  • MS-Temba 将 Manba 应用于动作检测,引入了有效捕获短期和长期时间关系的时间 Mamba 块

  1. VisionMamba 提出了使用双向状态空间模型,增强视觉表征
  2. Vmamba 提出了扫描的方法,将 Mamba 迁移到视觉领域
  3. VoxelMamba 提出了扫描的新方法,增强空间邻近性