https://arxiv.org/abs/2112.01527
Masked-attention Mask Transformer for Universal Image Segmentation (Bowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov, Rohit Girdhar)
maskformer 후속작이네요. multiscale feature 사용, object location 정보를 attention mask의 형태로 주입이 메인 아이디어네요. 성능이 또 한바탕 올랐군요. 다만 확실히 좀 무겁긴 하고 저자들도 이건 아니다 싶었는지 학습시의 메모리 소모를 줄이기 위한 트릭도 썼습니다.
#detr #panoptic_segmentation