https://arxiv.org/abs/2209.06730
MUST-VQA: MUltilingual Scene-text VQA (Emanuele Vivoli, Ali Furkan Biten, Andres Mafla, Dimosthenis Karatzas, Lluis Gomez)
scene text vqa 벤치마크가 하나 더 나왔는데 이 과제는 특징이 이미지 내에 있는 scene text와 질문의 언어가 영어로 한정되지 않은 동시에 scene text와 질문의 언어가 다를 수 있다는 부분이네요.
#vqa