https://arxiv.org/abs/2106.03650
Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer (Zilong Huang, Youcheng Ben, Guozhong Luo, Pei Cheng, Gang Yu, Bin Fu)
local attention의 receptive field 확장을 (채널이 아닌) spatial shuffle로 보완한다는 아이디어. 다만 이것만으로는 약간 부족해서 dw conv를 끼워넣긴 했군요. 결과는 꽤 좋아보입니다.
#vit