Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 310 Bytes

210407 Multimodal Fusion Refiner Networks.md

File metadata and controls

7 lines (4 loc) · 310 Bytes

https://arxiv.org/abs/2104.03435

Multimodal Fusion Refiner Networks (Sethuraman Sankaran, David Yang, Ser-Nam Lim)

페북의 vision-language-ocr 모델. 아무래도 hate meme 같은 걸 걸러내는 걸 염두에 둔 것 같군요. 결과는 아주 인상적이지는 않긴 합니다만.

#vision-language