[논문리뷰]Vision language models are blind
·
Artificial_Intelligence🤖/Natural Language Processing
논문 정보논문 제목: Vision language models are blind발행일: 2024.07.12(금)최신 비전 언어 모델(VLM), 정말로 '눈이 먼' 걸까?최근 몇 달 사이 GPT-4V(ision) 같은 비전 언어 모델(VLM)의 등장으로 이미지-텍스트 처리 서비스가 급증했습니다. VLM은 이미지 속 객체를 정확하게 식별하고 이를 바탕으로 복잡한 작업을 수행할 수 있어 매우 유용한 도구로 인식됩니다. 예를 들어, 사진과 메뉴판 이미지를 바탕으로 테이블 위 맥주 비용을 계산하는 것처럼 말이죠. 하지만 이 VLM이 정말 인간처럼 이미지를 잘 인식할까요? 이 질문에 대한 답을 찾기 위해 "BlindTest"라는 새로운 벤치마크 테스트를 사용하여 VLM의 한계를 탐구한 흥미로운 논문이 나왔습니다.주..