[논문리뷰]How Far Are We from Intelligent Visual Deductive Reasoning?
·
Artificial_Intelligence🤖/Natural Language Processing
VLM들은 연역적 추론을 얼마나 잘 수행할 수 있을까?안녕하세요, 여름감기에 걸린 블로그 주인장입니다.오늘은 VLM(Vision and Language Model)과 관련된 논문을 소개해드리려고 합니다. 해당 논문의 제목은 How Far Are We from Intelligent Visual Deductive Reasoning? 으로 APPLE 사에서 2024년 3월에 공개한 논문이며, ICLR 2024 AGI Workshop에서 발표한 내용입니다. 일단 Background 지식을 짚고 넘어갈게요.멀티모달(Multi-modal)이 뭘까요?첨부사진이 너무 짜치긴(?)한데, 멀티모달이란 여러 가지 감각이나 데이터를 동시에 다룬다는 뜻입니다.예를 들어, 사람은 눈으로 본 것과 귀로 들은 것을 동시에 이해할 수..