利用 3D 人体 mesh 信息,促进 2D 人体姿态估计。该方法理论上可促进图像/视频人体姿态估计。

首先,SAM3D 可以提取图像中的 mesh

  • 引入 Mesh 信息,做特征融合;
  • 可以提取每个实例/物体的 mesh,然后和二维图像做 cross attention,这样可以学习 3D 的跨实例交互关系,促进姿态推理