https://arxiv.org/abs/2104.03435
Multimodal Fusion Refiner Networks (Sethuraman Sankaran, David Yang, Ser-Nam Lim)
페북의 vision-language-ocr 모델. 아무래도 hate meme 같은 걸 걸러내는 걸 염두에 둔 것 같군요. 결과는 아주 인상적이지는 않긴 합니다만.
#vision-language
https://arxiv.org/abs/2104.03435
Multimodal Fusion Refiner Networks (Sethuraman Sankaran, David Yang, Ser-Nam Lim)
페북의 vision-language-ocr 모델. 아무래도 hate meme 같은 걸 걸러내는 걸 염두에 둔 것 같군요. 결과는 아주 인상적이지는 않긴 합니다만.
#vision-language