Top-Down视频姿态估计 拿出当前人的单人图像序列作为输入

可以试试全局context信息

全局图像信息

box信息

ROI信息

人体动作先验


感觉 好几篇论文做过了 比如 Contextual 那篇 以及 EDPose 《Contextual Instance Decoupling for Robust Multi-Person Pose Estimationtmap》 《EXPLICIT BOX DETECTION UNIFIES END-TO-END MULTI-PERSON POSE ESTIMATION》