Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 509 Bytes

230304 Prismer.md

File metadata and controls

7 lines (4 loc) · 509 Bytes

https://arxiv.org/abs/2303.02506

Prismer: A Vision-Language Model with An Ensemble of Experts (Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar)

multimodal vision language model. 이미지 입력 뿐만이 아니라 depth나 object detection 결과 같은 것들을 결합해서 사용한다는 발상. flamingo 스타일의 frozen vision encoder/language decoder를 사용하고 추가로 인코더와 디코더에 어댑터를 사용했군요.

#multimodal #vision-language