简要介绍
明白了,你想在 二维/三维或时空强化学习 / 时空序列建模中,选一些 既成熟又好做基线 的方法。下面我帮你整理一份实用清单,并按可落地性、易用性和参考价值排序。
一、格网 / Gridworld 基线
**特点:**最简单的空间化 MDP;状态是二维格点;动作有限(上下左右、stay)。
适合做基线的原因:
-
易于实现,逻辑清晰;
-
可以调试奖励和邻域依赖;
-
可用于验证递增更新或局部策略。
常见方法:
-
Q-learning / DQN / Double DQN
-
Gridworld 多智能体扩展
-
ConvDQN(状态用卷积表示空间特征)
**优点:**非常直观,参数少;训练快。
**缺点:**空间规模大时可能不够强。
二、卷积时序模型(ConvRNN / ConvLSTM / ConvGRU)
**特点:**将空间信息通过卷积保持局部关系,时间依赖用 RNN / LSTM / GRU。
适合做基线的原因:
-
经典方法,很多论文和开源代码可直接用;
-
可以处理二维/三维时序数据(视频、流场、点云体素);
-
能逐帧递增更新隐藏状态。
应用场景示例:
-
视频预测 / 分割
-
时空点云预测
-
动态网格控制
优点:
-
状态保留空间结构
-
训练和推理相对稳定
缺点: -
时间长序列可能梯度传播受限(LSTM 可以缓解)
三、图神经网络 + 时间模型(GNN + RNN/SSM)
特点:
-
状态空间不规则(图结构),用 GNN 处理空间邻域
-
时间依赖用 RNN / Transformer / SSM
适合做基线的原因:
-
可以处理非规则空间(交通网络、点云邻域)
-
便于做局部-全局策略对比
-
现代方法中常用于 spatio-temporal RL
典型基线:
-
DCRNN(Diffusion Convolution RNN)
-
ST-GCN(Spatio-Temporal Graph Convolution Network)
-
Graph-Mamba / Graph-SSM
优点:
-
灵活处理任意拓扑
-
可扩展到大规模空间
缺点: -
参数和实现复杂度较高
-
训练不如卷积 RNN 稳定
四、状态空间模型(SSM / Mamba / LION)
特点:
-
将序列建模和隐藏状态压缩结合
-
可以扩展到二维/三维空间(体素/patch)
适合做基线的原因:
-
递增更新效率高
-
可处理长序列
-
LION / Mamba 有开源代码可复现
优点:
-
高效,适合大规模时序数据
-
维护历史信息无需存储整条序列
缺点: -
对空间结构依赖需要额外卷积或 GNN
-
初学者调参可能复杂
五、概率场 / CRF / MRF(适合作为后验或先验基线)
特点:
-
空间状态通过能量模型建模
-
可与 RL 或卷积特征结合
-
适合生成/平滑任务
适合做基线的原因:
-
可以验证空间依赖是否显著提升性能
-
很容易实现(Gibbs 或 mean-field)
缺点:
-
不直接提供动作策略,需要和 RL 结合
-
纯 CRF/ MRF 没有时间建模能力
六、推荐组合(可作为初步基线方案)
| 类别 | 推荐做法 | 优点 | 备注 |
|---|---|---|---|
| Gridworld | Q-learning / ConvDQN | 简单易理解 | 验证邻域依赖和递增更新 |
| 卷积时序 | ConvLSTM / ConvGRU | 保留空间结构,适合小到中规模数据 | 视频、点云 Patch |
| GNN + RNN | DCRNN / ST-GCN | 处理非规则拓扑,适合复杂空间 | 交通网络、点云邻域 |
| SSM / Mamba | LION / Mamba3D | 高效递增更新,长序列 | 推荐做高阶 baseline |
| CRF / MRF | mean-field / Gibbs | 验证空间依赖 | 可结合卷积或 RL |
💡 实践建议:
初期可以先用 Gridworld 或 ConvLSTM 做验证 baseline;
再尝试 SSM/LION 做高效递增更新 baseline;
对非规则空间,可以加 GNN。
时空模型的更新流程、逻辑
# t 表示时间步
for t in range(T):
X_t = Encoder(spatial_input[t]) # CNN / GNN 编码空间结构
H_t = TemporalModel(X_t, H_{t-1}) # RNN / Transformer / SSM 更新时间状态
Y_t = Decoder(H_t) # 输出重建/预测/控制