Skip to content

Latest commit

 

History

History
8 lines (5 loc) · 551 Bytes

210421 Token Labeling.md

File metadata and controls

8 lines (5 loc) · 551 Bytes

https://arxiv.org/abs/2104.10858

Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet (Zihang Jiang, Qibin Hou, Li Yuan, Daquan Zhou, Xiaojie Jin, Anran Wang, Jiashi Feng)

vit 튜닝. 메인으로 미는 개선 사항은 re-labeling을 활용한 토큰별 레이블링과 cutmix를 vit 토큰에 맞게 변형한 mixtoken, 토큰 앞에 conv 달기 정도겠네요. 흥미롭긴 한데 vit스러운 토큰 구조를 계속 가져갈 필요가 있는지는 잘 모르겠습니다.

#vision_transformer