Quartz 4

❯

B_Experiments_Tracking

❯

时序不变性+时序变化性

时序不变性+时序变化性

Mar 22, 20243 min read

Pose-Estimation

Main Idea

可以吧多帧图像看成多视角的，去保持他们的时序不变特征，即 object 本身的几何信息之类的
另一个分支是时序变化即运动信息

几何+运动感觉可以

《CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion》

这篇论文提到将特征解耦为 base+detail

所以一个自然的思路：

关键帧和辅助帧都过一个 share 的 Backbone，去提取图像的空间特征
把图像特征解耦，分为结构化特征 和 细节特征
High-Level 上，结构化特征可以理解为时序不变性，而细节特征则可以认为是时序变化的，因为每帧有自己的外观信息
把多帧的结构化特征保持一致性，学习时序不变的深层次人体结构特征可以考虑 互信息 / 最优传输 / 对比学习 /etc. → 这里也可以讲故事说 图像退化下的共识约束可以提高模型鲁棒性
同时可以提出 loss让结构化特征和细节特征变得不一样
最后就是搞一个模块，同时利用这两种信息

今天想到一个东西，就是在约束学习结构不变的人体特征时，可以用 clip 内+clip 外的共同约束；

Clip 内-同一个 person 结构强一致性，比如关节位置、人体动作比较相似等等，这可能会更偏向于这种细节，忽略本质结构；且可能会引入背景； Clip 外-不同 person 本质结构相似性，这样可以避免背景信息干扰，学习到 person 本身不变特征

相当于重点就是做时序一致性特征提取

新的这个方向 idea 得用vit 作为 backbone 才行 — 感觉不太好说

可以先以 HRNet 为基础做个看看
在扩展成 VIT 版本
或者直接用VIT 作为 Backbone 试试

HRNet版本效果一般。83.0，和对齐聚合效果差不多，这个实验之后再做吧，先针对 mamba 来做一篇

Recent Notes

Obsidian 备份与预览
Jan 05, 2026
两套不同环境的代码调用
Jan 05, 2026
Global 思想
Jan 05, 2026
Test-time 模型改进
Jan 05, 2026
解纠缠特征对齐实验
Jan 05, 2026

Graph View

Backlinks

Experimental Tracking
index

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community