准备把 CVPR2023 的论文进行扩展,目前思路是在特征提取之后首先加入傅里叶频域分析,增强全局特征;同时融合全局与局部特征得到更好的表示;特征解纠缠改成 pixel level 的
改了很多版,精度最好的也低了0.2,说明没啥用
又得重新做了,关乎毕业===
整理一下写作思路:
现有方法的三个问题:
- 无法进行长依赖性(全局建模)→ 时空频域增强模块
- 无法利用差分表示 → 频域调制的差分特征学习
- 无法学习有用的运动特征 → 像素级特征解耦合
Pipeline: Conv 提取空间特征;用 deformable conv/optical flow 建模全场运动信息 在这个流程中,存在以上三点问题。对此我们提出上述解决方案
基于互信息的时间差分学习 探索增强的时间差分建模使用频谱分析分层特征解耦合
感觉还是两个点比较好 不然频域显得太强行了
Exploring Robust Temporal Difference Modeling Using for Human Pose
- 直接用差分捕获点到点的运动信息不够鲁棒,我们从频域分析的角度出发,提出频域增强的时间差分建模,可以学习多到多的映射,建模全局运动信息。
- 基于互信息的分层特征解耦合方法,进行多级特征分解,对比-一致性互信息损失函数,更精确地找到有意义的运动特征。
- 基于 Heatmap 的表示只用 L2 对于挑战性的关节不够鲁棒,我们提出频域损失,学习更鲁棒的热图。
PoseTrack17-18-21 + HiEve+JHMDB
感觉这个工作反正也只限于写作,不如我先做做手头的,这个只需要后续写就行
如果说除了全局特征,还要看频域的作用,后面直接做一些可视化把。比如说频域有利于捕捉全局分量,对于遮挡有用等等。