https://arxiv.org/abs/2104.10858

Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet (Zihang Jiang, Qibin Hou, Li Yuan, Daquan Zhou, Xiaojie Jin, Anran Wang, Jiashi Feng)

vit 튜닝. 메인으로 미는 개선 사항은 re-labeling을 활용한 토큰별 레이블링과 cutmix를 vit 토큰에 맞게 변형한 mixtoken, 토큰 앞에 conv 달기 정도겠네요. 흥미롭긴 한데 vit스러운 토큰 구조를 계속 가져갈 필요가 있는지는 잘 모르겠습니다.

#vision_transformer

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

210421 Token Labeling.md

210421 Token Labeling.md

Files

210421 Token Labeling.md

Latest commit

History

210421 Token Labeling.md

File metadata and controls