简要介绍

常见的数据集

数据集分类概览

你说得对，这些数据集主要分为：

自动驾驶场景：KITTI, nuScenes, Waymo, ONCE, Argoverse 2, Occ3D
室内场景：ScanNet v2, SUN RGB-D

📊 自动驾驶数据集

1. KITTI (2012)

创建时间：2012年
创建机构：卡尔斯鲁厄理工学院（KIT）

特点：

自动驾驶领域的开山鼻祖数据集
包含激光雷达（64线Velodyne）+ 相机
约 7,481 训练样本，7,518 测试样本
3类目标：汽车、行人、自行车

研究方向：

3D目标检测的基础benchmark
点云处理算法开发
多模态融合（图像+点云）

地位：虽然规模较小，但仍是入门和验证算法的标准数据集

2. nuScenes (2019)

创建时间：2019年
创建机构：nuTonomy（被Motional收购）

特点：

1,000个场景，每个场景20秒
360°全方位感知（6个相机 + 5个雷达 + 32线激光雷达）
10类目标：汽车、卡车、公交、行人等
提供时序标注，支持跟踪任务
覆盖波士顿和新加坡

研究方向：

多模态3D检测
3D目标跟踪
BEV（鸟瞰图）感知
时序建模

优势：全景感知 + 丰富的时序信息

3. Waymo Open Dataset (2019)

创建时间：2019年
创建机构：Waymo（Google自动驾驶部门）

特点：

迄今最大规模的自动驾驶数据集之一
1,950个场景（约20秒/场景）
高质量64线激光雷达 + 5个相机
1200万个3D边界框标注
覆盖多个城市、多种天气和时间

研究方向：

大规模3D检测
域适应和泛化
长尾分布目标检测
传感器融合

优势：规模大、质量高、场景多样性强

4. ONCE (2021)

创建时间：2021年
创建机构：华为诺亚方舟实验室

特点：

100万个场景
40线激光雷达 + 相机
大量未标注数据
5类目标

研究方向：

半监督/自监督学习
数据高效学习
弱监督3D检测
域适应

优势：最适合研究如何利用少量标注数据

5. Argoverse 2 (2021)

创建时间：2021年
创建机构：Argo AI / CMU

特点：

1,000小时驾驶数据
覆盖6个城市
高精度地图
支持检测、跟踪、预测三大任务

研究方向：

3D检测与跟踪联合
运动预测
地图融合感知
端到端规划

优势：多任务、高质量、长时序

6. Occ3D (2023-2024)

创建时间：2023-2024年
基于：nuScenes等数据集扩展

特点：

体素级别的3D占用预测标注
密集的语义标注
覆盖完整3D空间

研究方向：

3D语义占用预测（不同于传统检测）
密集场景理解
端到端自动驾驶感知

注意：严格来说不是传统的3D检测数据集，而是占用预测

🏠 室内数据集

7. ScanNet v2 (2017, v2更新2018)

创建时间：2017年（v2: 2018）
创建机构：斯坦福、普林斯顿、慕尼黑工大

特点：

1,613个室内场景重建
RGB-D视频序列
密集的3D网格和语义标注
18类室内物体

研究方向：

室内3D目标检测
3D语义分割
3D场景重建
室内场景理解

优势：室内场景最全面的数据集

8. SUN RGB-D (2015)

创建时间：2015年
创建机构：普林斯顿大学

特点：

10,335张RGB-D图像
来自4种不同传感器
37类室内物体
2D和3D边界框标注

研究方向：

RGB-D 3D检测
室内物体识别
深度估计与3D理解

地位：室内检测的经典数据集，但相比ScanNet规模较小

📝 需要补充的重要数据集

9. KITTI-360 (2022)

KITTI的扩展版本
提供长序列和360°全景
适合场景理解和建图

10. SemanticKITTI (2019)

基于KITTI的激光雷达语义分割数据集
逐点语义标注
28类语义类别

11. Lyft Level 5 (2019)

55,000个人工标注帧
7类目标
质量高但规模比Waymo小

12. PandaSet (2021)

Hesai和Scale AI联合发布
高分辨率激光雷达
28类目标

🎯 数据集选择指南（仅针对点云3D检测）

入门学习

→ KITTI（小规模、容易上手）

多模态融合研究

→ nuScenes（全景、时序、多模态）

大规模训练/竞赛

→ Waymo（规模最大、质量最高）

半监督/少样本学习

→ ONCE（大量未标注数据）

多任务学习

→ Argoverse 2（检测+跟踪+预测）

室内场景

→ ScanNet v2（室内最全面）
→ SUN RGB-D（RGB-D入门）

📊 数据集对比总结表

数据集	年份	场景	规模	激光雷达	特色
KITTI	2012	户外	小	64线	经典基础
nuScenes	2019	户外	中	32线	全景+时序
Waymo	2019	户外	大	64线	规模+质量
ONCE	2021	户外	超大	40线	半监督
Argoverse 2	2021	户外	大	高精度	多任务
ScanNet v2	2018	室内	中	RGB-D	场景重建
SUN RGB-D	2015	室内	小	RGB-D	经典室内

🔬 研究方向建议

如果你专注点云3D检测：

基础算法开发 → 从KITTI开始
SOTA性能追求 → Waymo或nuScenes
效率研究（少样本/弱监督）→ ONCE
时序/跟踪 → nuScenes或Argoverse 2
室内机器人 → ScanNet v2

近期热门的数据集

让我搜索一下最近比较火热和新兴的点云3D检测数据集。太好了！让我为你介绍最近1-2年比较火热和逐渐流行的新兴数据集：

🔥 近期热门/新兴数据集（2023-2025）

1. nuPlan (2023-2024) ⭐⭐⭐⭐⭐

最火热的新数据集之一！

创建时间：2023年发布，2024年完整版
创建机构：Motional（nuScenes团队）

特点：

包含1282小时的多样化驾驶场景，来自4个城市（拉斯维加斯、波士顿、匹兹堡和新加坡），包括高质量的自动标注物体轨迹和交通灯数据
超过1300小时驾驶数据（15000+日志）
专注于端到端规划而非单纯检测
包含闭环仿真环境

为什么火：

nuScenes团队最新力作
从感知转向规划，代表自动驾驶研究新方向
数据规模巨大，场景多样性强
支持端到端自动驾驶研究

研究方向：

端到端规划
轨迹预测
闭环决策
3D检测+规划联合训练

2. OpenScene (2023) ⭐⭐⭐⭐⭐

3D占用预测的最大基准！

创建时间：2023年
创建机构：OpenDriveLab

特点：

基于大规模nuPlan数据集的紧凑重新分发版本，仅保留相关标注和2Hz传感器数据，数据集大小缩减了10倍以上，覆盖超过120小时，并提供在多个城市收集的额外占用标签
覆盖波士顿、匹兹堡、拉斯维加斯到新加坡等多个城市
体素级别的密集语义占用标注

为什么火：

3D Occupancy预测是当前最热门的研究方向之一
比传统3D检测提供更完整的空间理解
数据量大但经过优化，易于使用
2023年竞赛有400+提交

研究方向：

3D语义占用预测
端到端感知
BEV（鸟瞰图）密集预测

3. OpenOccupancy (2023, ICCV) ⭐⭐⭐⭐

占用预测的另一重要基准

创建时间：2023年ICCV
创建机构：学术界

特点：

扩展了大规模nuScenes数据集，增加了密集的语义占用标注。之前的标注依赖于激光雷达点的叠加，由于稀疏的激光雷达通道导致一些占用标签缺失，引入了增强方法来缓解这个问题
基于nuScenes，补充密集标注
解决了激光雷达稀疏导致的标注缺失问题

为什么火：

ICCV 2023发布，学术认可度高
与nuScenes兼容，易于使用
标注质量高

4. OpenLane-V2 (2023, NeurIPS) ⭐⭐⭐⭐

车道检测+拓扑推理

创建时间：2023年NeurIPS
创建机构：OpenDriveLab

特点：

包含2000个标注的道路场景，描述交通元素及其与车道的关联，包括从OpenLane继承的3D车道检测等三个主要子任务
3D车道检测 + 车道拓扑推理
不仅检测车道，还理解车道之间的连接关系

为什么火：

车道检测是自动驾驶的关键任务
拓扑推理是新兴方向
NeurIPS 2023 Datasets and Benchmarks Track

研究方向：

3D车道检测
车道拓扑推理
高精地图构建

5. PandaSet (2021，持续更新) ⭐⭐⭐

高质量激光雷达数据

创建时间：2021年，持续维护
创建机构：Hesai（禾赛）+ Scale AI

特点：

高分辨率激光雷达（Hesai Pandar64）
28类详细目标分类
硅谷实际道路场景

为什么值得关注：

工业界（激光雷达厂商）支持
硬件规格高
持续更新维护

📊 趋势分析：什么类型的数据集最火？

当前最热门的方向（2023-2025）：

3D Occupancy Prediction（占用预测） 🔥🔥🔥
- OpenScene
- OpenOccupancy
- Occ3D
- 为什么火：比传统检测提供更密集、完整的3D理解
端到端规划（End-to-End Planning） 🔥🔥🔥
- nuPlan
- 为什么火：从感知转向决策，更接近真实应用
多任务统一（Multi-task Unified） 🔥🔥
- 检测+跟踪+分割+占用预测
- OpenLane-V2（车道+拓扑）
大规模预训练数据 🔥🔥
- 支持基础模型训练
- 数据量巨大（如nuPlan 1300+小时）

🎯 给你的建议

如果你想追热点做3D检测研究：

最推荐关注（2024-2025）：

nuPlan - 最新、最大、最全面，代表未来方向
OpenScene - 占用预测最大基准，当前最热
OpenOccupancy - 占用预测，学术认可度高

经典+持续热门：

Waymo Open Dataset - 规模最大，持续竞赛
nuScenes - 基础好，资源多，社区活跃

特定方向：

OpenLane-V2 - 如果关注车道检测
Argoverse 2 - 如果做跟踪和预测

📈 研究热度对比（个人观察）

2024-2025 热度排行：
🥇 nuPlan（端到端规划）
🥇 OpenScene（占用预测）  
🥈 Waymo（持续竞赛，工业标准）
🥈 OpenOccupancy（占用预测）
🥉 nuScenes（经典常青）
🥉 Argoverse 2（多任务）

💡 未来趋势预测

占用预测将持续火热 - 从稀疏检测到密集理解
端到端模型 - 感知+规划一体化
大规模预训练 - 类似CV/NLP的基础模型
世界模型 - 结合物理仿真的数据集
长尾场景 - 关注罕见但重要的corner case

建议：如果你现在开始研究，强烈推荐从 nuPlan 或 OpenScene 入手，这两个代表了当前最前沿的方向！

人杰地灵东箭南金

探索

数据集-02

常见的数据集

数据集分类概览

📊 自动驾驶数据集

1. KITTI (2012)

2. nuScenes (2019)

3. Waymo Open Dataset (2019)

4. ONCE (2021)

5. Argoverse 2 (2021)

6. Occ3D (2023-2024)

🏠 室内数据集

7. ScanNet v2 (2017, v2更新2018)

8. SUN RGB-D (2015)

📝 需要补充的重要数据集

9. KITTI-360 (2022)

10. SemanticKITTI (2019)

11. Lyft Level 5 (2019)

12. PandaSet (2021)

🎯 数据集选择指南（仅针对点云3D检测）

入门学习

多模态融合研究

大规模训练/竞赛

半监督/少样本学习

多任务学习

室内场景

📊 数据集对比总结表

🔬 研究方向建议

如果你专注点云3D检测：

近期热门的数据集

🔥 近期热门/新兴数据集（2023-2025）

1. nuPlan (2023-2024) ⭐⭐⭐⭐⭐

2. OpenScene (2023) ⭐⭐⭐⭐⭐

3. OpenOccupancy (2023, ICCV) ⭐⭐⭐⭐

4. OpenLane-V2 (2023, NeurIPS) ⭐⭐⭐⭐

5. PandaSet (2021，持续更新) ⭐⭐⭐

📊 趋势分析：什么类型的数据集最火？

当前最热门的方向（2023-2025）：

🎯 给你的建议

如果你想追热点做3D检测研究：

最推荐关注（2024-2025）：

经典+持续热门：

特定方向：

📈 研究热度对比（个人观察）

💡 未来趋势预测

关系图谱

目录

最近更新

3D Lidar-Based Object Conditions in Adverse Weather Conditions

GSD+Superpowers

openpcdet-LION环境配置