Main Idea

  • 可以吧多帧图像看成多视角的,去保持他们的时序不变特征,即 object 本身的几何信息之类的
  • 另一个分支是时序变化即运动信息

几何+运动感觉可以


《CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion》

这篇论文提到将特征解耦为 base+detail

所以一个自然的思路:

  • 关键帧和辅助帧都过一个 share 的 Backbone,去提取图像的空间特征
  • 把图像特征解耦,分为结构化特征细节特征
  • High-Level 上,结构化特征可以理解为时序不变性,而细节特征则可以认为是时序变化的,因为每帧有自己的外观信息
  • 把多帧的结构化特征保持一致性,学习时序不变的深层次人体结构特征 可以考虑 互信息 / 最优传输 / 对比学习 /etc. 这里也可以讲故事说 图像退化下的共识约束可以提高模型鲁棒性
  • 同时可以提出 loss让结构化特征和细节特征变得不一样
  • 最后就是搞一个模块,同时利用这两种信息

今天想到一个东西,就是在约束学习结构不变的人体特征时,可以用 clip 内+clip 外的共同约束;

Clip 内-同一个 person 结构强一致性,比如关节位置、人体动作比较相似等等,这可能会更偏向于这种细节,忽略本质结构;且可能会引入背景; Clip 外-不同 person 本质结构相似性,这样可以避免背景信息干扰,学习到 person 本身不变特征

相当于重点就是做时序一致性特征提取


新的这个方向 idea 得用vit 作为 backbone 才行 — 感觉不太好说

  • 可以先以 HRNet 为基础做个看看
  • 在扩展成 VIT 版本
  • 或者直接用VIT 作为 Backbone 试试

HRNet版本效果一般。83.0,和对齐聚合效果差不多,这个实验之后再做吧,先针对 mamba 来做一篇