Top-Down视频姿态估计 拿出当前人的单人图像序列作为输入
可以试试全局context信息
全局图像信息
box信息
ROI信息
人体动作先验
感觉 好几篇论文做过了 比如 Contextual 那篇 以及 EDPose 《Contextual Instance Decoupling for Robust Multi-Person Pose Estimationtmap》 《EXPLICIT BOX DETECTION UNIFIES END-TO-END MULTI-PERSON POSE ESTIMATION》