做图片姿态估计,针对 人体关节的结构化约束 & 高低置信度关键点预测 提出解决方案。 结构化

Motivation & 基本观点:

  • We observe that human poses exhibit strong group-wise structural correlation and spatial coupling between keypoints due to the biological constraints of different body parts. This group-wise structural correlation can be explored to improve the accuracy and robustness of human pose estimation.

代码未开源

要点:

整体方法可以分为两部分,分别从训练和测试阶段进行理解比较方便,前提是先进行关键点分组。

  • 关节分组
    • 按人体结构对关节进行分组,划分为6组,每组4个关节
    • 手动划分置信度高低的点:在每个组内靠近躯干的点认为是base的点,一个边缘的点认为是端点 terminal keypoints

  • Training:prediction-verification 网络结构来学习关节内部结构化关系
    • 首先基于HRNET拿到初始的 heatmap & features
    • 训练预测网络:以一个关节组为例,用三个base关节的heatmap以及feature输入预测网络,推理出terminal 关节的heatmap;把预测网络的输出与其他输入堆叠作为验证网络的输入,来预测`第一个base关节的heatmap,这样可以形成一个闭环,同时约束两个网络的输出;训练期间冻结验证网络
    • 训练验证网络:反一下上述过程就行,先验证再预测,loss约束从pipeline图可以看到
  • Testing:在推理期间优化低置信度的关键点(就是优化Terminal Keypoint)
    • 送来一组测试sample,先用预测网络预测出关节组里面端点的heatmap
    • 划定一个范围,对heatmap加上扰动,进行采样,
    • 将该heatmap以及相应的输入输入到验证网络进行反向预测,得到第一个base关节的heatmap,优化即保证将所选择的预测的terminal关节的heatmap输入验证网络后所得结果能与HRNet预测的初始的结果loss最小
    • Here, the basic idea is that: if the prediction X D becomes accurate during local search, then, using it as the input, the verification network should be able to accurately predict the high-confidence keypoint H A , which implies that the self-constraint loss || H A − H A || 2 on the high-confidence keypoint X A should be small.

反思

  • 这篇论文整体挺复杂的,所提的这种cycle-like的学习方法来学习关节关系比较有趣,但是论文的说法** Self-Constrained Learning** 与一般的自监督学习并不一样
  • heatmap加上扰动再重采样这个做法确实不错,看上去可以实现测试期间的优化
  • 有个问题是直接自己定义好了低置信度的关节,这篇论文避开了这个关键问题。按理来说应该每次都能判断出哪些预测的关节精度较低,而不是手动定义,这个可以作为后续扩展方向