参考论文《MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation》

Motivation 可参考上述论文,主要思想为多假设,即遮挡后是存在多个看似合理的pose的

短期内用Transformer网络不太现实,所以打算从CNN入手,考虑CNN + 对比学习

MPHN:Multi Pose Hypothesis Network for Video-Based Human Pose Estimation

概率性多假设表征生成模块

基于公共空间学习的表征差异化约束

  • 首先,CNN搞一个序列的时空特征
  • 然后时空特征按通道划分,作为三种假设的表征
  • 用对比学习,让三种表征变得不一样 / 实在不行再用互信息
  • 每个表征出一个姿态,然后合并

概率性多假设表征生成模块:

HRNet 特征 → Attention (从原生特征中找出特定分支关注的区域)→ Deformable Convolution(结合原始特征和attention的特征,对该分支进行个性化学习,进一步优化)

三组平行的attention,以及deformable conv


论文《MPHN: Multi-Pose Hypothesis Network for Video-Based Human Pose Estimation》初讨论存在的一些问题(9-2):

方法层面存在的:

  • 主打的是多假设,但是多个分支模块的生成结构是一模一样的,只靠一个loss去约束它们学到不一样的东西是不是有点弱?

    我自己感觉这里多假设通过两个方面实现:

    • 一个是独立的多分枝结构,但是多个分支的GT一样,所以可能确实会存在上述问题
      • 改进:改成 spatio attention ,加上embedding
    • 这个新的loss是专门约束学习不同特征的,确实可以学到不一样的

论文层面

  • 文章标记的
  • 图的问题,可以第一页画一张展示生成不同的pose的图

之前被 ICASSP 拒了,我觉得是审稿人的问题


二次修改

把 MPHN 并入多表征子空间学习以及互信息目标,可以投到 tcsvt


整体思路

  • 首先根据一个原始的特征序列,进行对齐聚合,得到时空特征;
  • 随后把时空特征进行划分,得到多个表征子空间;
  • 最后把每个空间都做姿态估计并且聚合他们的结果,得到最终的 pose
  • 加入互信息约束不同表征子空间,使得他们不相似

TCSVT 被拒了。主要就是说:

  • r1: 特征分解太常见了。 但是在 vhpe 并没有人这么做过,而且我们的特征分解是有理论分析的,我觉得这个点不用管,就是强调一下我们提出的是基于互信息的特征分解。多假设也有人做了,但是在 2d vhpe 也没人做 。所以针对这些问题应该突出一下目前的写法,就是基于互信息的子表征提取;可以说 3d 用多假设来解决歧义性,2d 没有考虑。我们首次考虑多假设问题
  • 多假设:按照上面的,说3d歧义性用多假设解决,调研多假设是否能促进 2d 也是会很有效果。实验表明能促进。多假设也可以往关节优化上引。
  • 也就是说 novelty 我们通过写作解决—
  • 实验中把中间分支的 loss 去掉会比较合理,让模型端到端训练。这个建议可以
  • 写作上主要是实验表格加粗的有问题,仔细改改

我觉得不要过度慌,投稿嘛,怕啥,冲就完了 可以花一周时间来修这篇 paper 虽然把故事编合理了,但是实际上多假设 idea 感觉还是没那么好的。所以 KBS 试试,不行就往下投。

5 月份之前修完。

2025.1.13

PR 投稿,拒搞重投

之后继续修一下这个论文,然后再投

中了PR