https://arxiv.org/abs/2303.02506
Prismer: A Vision-Language Model with An Ensemble of Experts (Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar)
multimodal vision language model. 이미지 입력 뿐만이 아니라 depth나 object detection 결과 같은 것들을 결합해서 사용한다는 발상. flamingo 스타일의 frozen vision encoder/language decoder를 사용하고 추가로 인코더와 디코더에 어댑터를 사용했군요.
#multimodal #vision-language