https://arxiv.org/abs/2104.10858
Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet (Zihang Jiang, Qibin Hou, Li Yuan, Daquan Zhou, Xiaojie Jin, Anran Wang, Jiashi Feng)
vit 튜닝. 메인으로 미는 개선 사항은 re-labeling을 활용한 토큰별 레이블링과 cutmix를 vit 토큰에 맞게 변형한 mixtoken, 토큰 앞에 conv 달기 정도겠네요. 흥미롭긴 한데 vit스러운 토큰 구조를 계속 가져갈 필요가 있는지는 잘 모르겠습니다.
#vision_transformer