姿态估计希望模型具有结构化推理能力,能根据人体结构进行推理,目前看到的一些做法:

  • GAN来做,判别器判别当前姿态是否合理,隐式学习人体关节之间的(生理)结构信息 《Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation 》
  • TokenPose:用符号表示关节,Transformer学习,《TokenPose: Learning Keypoint Tokens for Human Pose Estimation》直接用Self-Attention建模所有关节之间的关系
  • 对比学习 : 两张图中同一个关节表征应该是相似的;成对的特征也该是相似的

粗略分析:

遮挡情况下,CNN依然会去考虑局部依赖性,根据视觉信息来推断当前的点,所以有时候推测出来的pose不是一个合理的pose,即看上去不像个正常的人。

反观我们人类,则在任何情况下都可以推测出那些看似合理的姿态

主要原因可以归结为模型无法学习到结构化的(生理)几何约束

2D图像的 几何约束 == 3D信息?

为了能让模型捕获到结构化信息,可以让网络从部分点向后推测:

每一层的特征都是

还没想好,一些关键思路:

  • Key Idea:

    • 整体流程:首先从姿态估计结果中找出一些置信度高的;然后根据其去推测置信度低的关节

    • 为了实现结构化预测,可以直接挖去一些关节,让模型从已有的关节中直接推测这些被挖掉的关节,以此来训练模型的结构化(参考MAE,《Masked Autoencoders Are Scalable Vision Learners》),根据部分关节预测其他关节可以采用迭代式架构,逐渐计算出其姿态;

    • 从某些高置信度的关节去推理其他关节,直接的idea就是训练一个判别器去识别那些是高置信度的,但是这个难以与视频结合;为了与video结合,可以计算多帧之间关节的相似度(遮挡的关节一般heatmap接近于0,与非遮挡的关节不相似),例如5帧之间计算每个关节的相似度,并根据相似度计算得分,若一个关节在几帧都很相似,则说明其置信度比较高;反之则比较低;

      • 此处计算相似度包含两个方面,即 位置敏感 与 特征(heatmap亮暗)敏感;
      • 同时包括层次化的相似度,即单个关节joint-level与pair-/group-level的相似度
      • 几帧中若有一帧遮挡,则期望其会降低整体的可信度
    • 上述方案创新就在于一个新的思路,一个模型架构;有个问题在于 只是利用了邻近帧来计算关节置信度,缺乏其他信息的利用;如果结果比较好则可以额外与DCPose、FAMI-Pose等对比模型参数量、FLOPs等。

  • 显式学习结构化特征,即人体的三维几何特征(难实现 《Unsupervised Geometry-Aware Representation for 3D Human Pose Estimation》)


经过讨论感觉2d估计下不只是结构化问题,所以打算先利用补全的思想


基于聚类 + 属性自适应调整

基于解耦合特征学习 + 补全

24.8.17— 重新整理该思路,思考这个问题。

以前的想法比较幼稚

整理现有的做关节结构化约束的论文,大致分三种方法:

  • 用 GAN 去判断生成的 Pose 是否合理 (这个我是不打算用的)
  • 手动去划分关节组,用基本关节推理末端关节;或者是引入关节组结构化约束。|*感觉这类过于手动指定了,扩组关节关系就无法考虑到
  • 初始化一组关键点 Token,直接用 Token 和图像特征堆在一起,就能学到关节之间的关系了。 根据这些思路,有以下启发:
  • 首先是具体的关节关系,也就是两类:临近关节的约束 (组内约束)或者是对称关节的约束(不同组之间的关系) ---实际上也可能有隐含的关节联系 这两种算是通用的关节约束,这也只是明面上的,实际上人体跨连接的关节之间可能也有联系,比如头和脖子是一条直线— 这一类也可以成为是人体固有的生理约束
  • 在具体的视频姿态估计中,与单张图片不同。图片姿态估计只能统计出普遍的统计量。而视频涉及各种各样的动作,不同动作下,关节依赖都具有特殊性。比如跑步情况下,胳膊和腿是有一定联系的;而在投篮/棒球等,两条胳膊是有联系的。在不同的运动场景下,关节联系可以归结为运动特定的协作性约束,此时当然也遵守基本的人体结构,只是有额外的联系在。
  • 基于上述,可以做一个分层关系学习网络,基本的结构学习+运动特定的约束
  • *我们首先定义一组超原型,每一个可以视作高层抽象关键点,补获了跨实例以及跨时间的语义相关的关键点统计量。超原型是稳定的-跨任务跨时间稳定的,编码了基础的人体结构依赖(临近关节的约束 (组内约束);*或者是对称关节的约束)。(2)我们进一步设计了运动特定的原型适应,通过与具体时空特征充分学习交互,把超原型的知识迁移到具体的多样的运动序列中来适应不同运动模式的关节协作。我们的方法获得了 SOTA 的性能。除此之外,我们提出一致性正则化来促进原型有效学习。
  • 所以基本思路定下来,感觉可以做基本的 token+分组的超级 token,感觉没必要,直接能学到基础的关系;运动特定的原型学习,首先离不开时空建模;其次是时空特征中怎么去抽象关节模式,比如特征差分+Transformer==== 还有一点要思考的是是否要引入显示的关节关联矩阵,回归出这种矩阵。 明天继续思考模型结构。

已投稿 CVPR 2025, 没中

已投稿 ICCV 2025, 没中


基于审稿人意见,分析这篇论文主要问题还是在于写作方面:

  • 论文的贡献总结不好;得突出与现有方法的区别
  • 模型过于复杂