gupta-abhay / pytorch-vit Public

Notifications You must be signed in to change notification settings
Fork 34
Star 287

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

arxiv.org/abs/2010.11929

287 stars 34 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
model		model
static		static
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Repository files navigation

Vision Transformers

Implementation of Vision Transformer in PyTorch, a new model to achieve SOTA in vision classification with using transformer style encoders. Associated blog article.

Features

Current Support for:

Vanilla ViT
Hybrid ViT (with support for BiTResNets as backbone)
Hybrid ViT (with support for AxialResNets as backbone)

To Do:

Training Script
Full Axial-ViT

References

Citations

@inproceedings{
    anonymous2021an,
    title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
    author={Anonymous},
    booktitle={Submitted to International Conference on Learning Representations},
    year={2021},
    url={https://openreview.net/forum?id=YicbFdNTTy},
    note={under review}
}