准备把 CVPR2023 的论文进行扩展,目前思路是在特征提取之后首先加入傅里叶频域分析,增强全局特征;同时融合全局与局部特征得到更好的表示;特征解纠缠改成 pixel level 的


改了很多版,精度最好的也低了0.2,说明没啥用

又得重新做了,关乎毕业===


整理一下写作思路:

现有方法的三个问题:

  • 无法进行长依赖性(全局建模) 时空频域增强模块
  • 无法利用差分表示 频域调制的差分特征学习
  • 无法学习有用的运动特征 像素级特征解耦合

Pipeline: Conv 提取空间特征;用 deformable conv/optical flow 建模全场运动信息 在这个流程中,存在以上三点问题。对此我们提出上述解决方案


基于互信息的时间差分学习 探索增强的时间差分建模使用频谱分析分层特征解耦合

感觉还是两个点比较好 不然频域显得太强行了

Exploring Robust Temporal Difference Modeling Using for Human Pose

  • 直接用差分捕获点到点的运动信息不够鲁棒,我们从频域分析的角度出发,提出频域增强的时间差分建模,可以学习多到多的映射,建模全局运动信息。
  • 基于互信息的分层特征解耦合方法,进行多级特征分解,对比-一致性互信息损失函数,更精确地找到有意义的运动特征。
  • 基于 Heatmap 的表示只用 L2 对于挑战性的关节不够鲁棒,我们提出频域损失,学习更鲁棒的热图。

PoseTrack17-18-21 + HiEve+JHMDB


感觉这个工作反正也只限于写作,不如我先做做手头的,这个只需要后续写就行

如果说除了全局特征,还要看频域的作用,后面直接做一些可视化把。比如说频域有利于捕捉全局分量,对于遮挡有用等等。


2026-12-17 PAMI投稿