CNN vs Transformer:

  • long-range dependence
  • adaptive spatial aggregation (transformer QKV都是依赖于输入进行计算的)

分析可形变卷积,Offsets相当于长距离依赖,O、M的计算相当于自适应聚合

DCNV3

  1. 具体的卷积操作尚不清楚
  2. 分组机制也不清楚