简要介绍
用 sparse-conv 提取每帧特征,然后把特征和上一帧的 LSTM 隐状态一起输入,输出当前帧检测并传递新的隐状态。说明了“把隐状态从帧到帧传递/累积”的基本做法与效果。
针对该文的 idea 以及后续可改进的
文中使用拼接 4 帧特征的方式,增强检测能力,但是受内存的限制,最多只能使用 7 帧的特征数据 我们使用增量式的方式保存历史特征数据,减小内存的使用,同时可以保存更多的历史信息
但是
- 帧数从 4 到7 帧,性能增加只有 1%,增加帧数对性能提升有边际效应;
- 增加一帧的特征,是使用稀疏体素表示的,即使增加一帧的特征,对内存的使用增加还是较少的
- 但是文中最好的效果是使用 4 帧数据合成的特征,此时内存依然存在压力
摘要模板
为解决该问题,我们的解决方法,介绍我们的解决方法
我们方法的效果,和其他方法的对比
一句话解决我们的工作
时空方法
针对视频数据中的预测和人体运动学建模等不同的视觉任务,尝试了多种利用时间信息的方法。