https://arxiv.org/abs/2303.02506

Prismer: A Vision-Language Model with An Ensemble of Experts (Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar)

multimodal vision language model. 이미지 입력 뿐만이 아니라 depth나 object detection 결과 같은 것들을 결합해서 사용한다는 발상. flamingo 스타일의 frozen vision encoder/language decoder를 사용하고 추가로 인코더와 디코더에 어댑터를 사용했군요.

#multimodal #vision-language

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230304 Prismer.md

230304 Prismer.md

Files

230304 Prismer.md

Latest commit

History

230304 Prismer.md

File metadata and controls