解纠缠的视频表征学习,建模短期内的动态信息,分别根据多种特征分别预测,然后做动作识别,CVPR 2018,时间较早 差分建模
Code:未开源

- 将视频表征划分为三方面:外观特征,视觉运动,外观变化。首先Concat连续帧提取浅层特征,然后分别学习三种解耦合的特征
- 外观特征,Convolution + Temporal Pooling
- 视觉运动(Object / Camera Motion),构造基于 cost volume(即两帧像素的相似度,不过是一个像素与一个区域的匹配,H×W×(2∆H+1)×(2∆W+1) ,一个图是HW个像素,每个像素与一个区域里(2∆H+1)×(2∆W+1)个像素的匹配) **的运动表示,最终采用每个像素的偏移量作为运动信息(Optical-FLow,H×W×2)
- 外观变化,特指由光照变化等非运动因素引起的外观变化,做法上可以理解为先对齐两帧,然后相减,做法合理,我们以前有过类似做法,但是没有合理解释
这种划分看上去很合理,但是三种信息直接分别预测最终结果然后再平均有点草率
感觉可以结合Temporal Difference,维护一个多粒度运动场(Multi-Level Motion Field),迭代式更新关节的预测(补全)