Main Idea
- 可以吧多帧图像看成多视角的,去保持他们的时序不变特征,即 object 本身的几何信息之类的
- 另一个分支是时序变化即运动信息
几何+运动感觉可以
《CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion》
这篇论文提到将特征解耦为 base+detail
所以一个自然的思路:
- 关键帧和辅助帧都过一个 share 的 Backbone,去提取图像的空间特征
- 把图像特征解耦,分为结构化特征 和 细节特征
- High-Level 上,结构化特征可以理解为时序不变性,而细节特征则可以认为是时序变化的,因为每帧有自己的外观信息
- 把多帧的结构化特征保持一致性,学习时序不变的深层次人体结构特征 可以考虑 互信息 / 最优传输 / 对比学习 /etc. → 这里也可以讲故事说 图像退化下的共识约束可以提高模型鲁棒性
- 同时可以提出 loss让结构化特征和细节特征变得不一样
- 最后就是搞一个模块,同时利用这两种信息
今天想到一个东西,就是在约束学习结构不变的人体特征时,可以用 clip 内+clip 外的共同约束;
Clip 内-同一个 person 结构强一致性,比如关节位置、人体动作比较相似等等,这可能会更偏向于这种细节,忽略本质结构;且可能会引入背景; Clip 外-不同 person 本质结构相似性,这样可以避免背景信息干扰,学习到 person 本身不变特征
相当于重点就是做时序一致性特征提取
新的这个方向 idea 得用vit 作为 backbone 才行 — 感觉不太好说
- 可以先以 HRNet 为基础做个看看
- 在扩展成 VIT 版本
- 或者直接用VIT 作为 Backbone 试试
HRNet版本效果一般。83.0,和对齐聚合效果差不多,这个实验之后再做吧,先针对 mamba 来做一篇