๋ ผ๋ฌธ ์ ๋ณด
๋
ผ๋ฌธ ์ ๋ชฉ: Vision language models are blind
๋ฐํ์ผ: 2024.07.12(๊ธ)
์ต์ ๋น์ ์ธ์ด ๋ชจ๋ธ(VLM), ์ ๋ง๋ก '๋์ด ๋จผ' ๊ฑธ๊น?
์ต๊ทผ ๋ช ๋ฌ ์ฌ์ด GPT-4V(ision) ๊ฐ์ ๋น์ ์ธ์ด ๋ชจ๋ธ(VLM)์ ๋ฑ์ฅ์ผ๋ก ์ด๋ฏธ์ง-ํ ์คํธ ์ฒ๋ฆฌ ์๋น์ค๊ฐ ๊ธ์ฆํ์ต๋๋ค. VLM์ ์ด๋ฏธ์ง ์ ๊ฐ์ฒด๋ฅผ ์ ํํ๊ฒ ์๋ณํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ณต์กํ ์์ ์ ์ํํ ์ ์์ด ๋งค์ฐ ์ ์ฉํ ๋๊ตฌ๋ก ์ธ์๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ง๊ณผ ๋ฉ๋ดํ ์ด๋ฏธ์ง๋ฅผ ๋ฐํ์ผ๋ก ํ ์ด๋ธ ์ ๋งฅ์ฃผ ๋น์ฉ์ ๊ณ์ฐํ๋ ๊ฒ์ฒ๋ผ ๋ง์ด์ฃ . ํ์ง๋ง ์ด VLM์ด ์ ๋ง ์ธ๊ฐ์ฒ๋ผ ์ด๋ฏธ์ง๋ฅผ ์ ์ธ์ํ ๊น์? ์ด ์ง๋ฌธ์ ๋ํ ๋ต์ ์ฐพ๊ธฐ ์ํด "BlindTest"๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ ํ ์คํธ๋ฅผ ์ฌ์ฉํ์ฌ VLM์ ํ๊ณ๋ฅผ ํ๊ตฌํ ํฅ๋ฏธ๋ก์ด ๋ ผ๋ฌธ์ด ๋์์ต๋๋ค.
์ฃผ์ ๋ฌธ์ !
๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด VLM์ ๊ณ ์์ค์ ๋น์ ๋ฒค์น๋งํฌ์์ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๋ณด์ด์ง๋ง, ๊ธฐ๋ณธ์ ์ธ ์๊ฐ์ ๊ณผ์ ์์๋ ์๊ฐ๋ณด๋ค ์ฑ๋ฅ์ด ์ ์กฐํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ ์ ์ ๊ต์ฐจ์ ์ ์ธ๊ฑฐ๋, ์์ ์ํ๋ฅผ ํ์ธํ๋ ๊ฐ๋จํ ์์ ์์ VLM์ ์ฌ์ ํ ์ด๋ ค์์ ๊ฒช์ต๋๋ค. ์ด๋ ์ค์ํ ์๋๋ฆฌ์ค์์ VLM์ ์ค์ฉ์ ์ผ๋ก ์ ์ฉํ๋ ๋ฐ ํฐ ์ฅ์ ๋ฌผ์ ๋๋ค.
์ฌ์ฉ๋ VLM ๋ชจ๋ธ
- GPT-4o
- Gemini-1.5 Pro
- Claude-3 Sonnet
- Claude-3.5 Sonnet
BlindTest ๋ฒค์น๋งํฌ ์๊ฐ
BlindTest๋ ์ธ๊ฐ์๊ฒ๋ ์ง๊ด์ ์ด๊ณ ์ฌ์ด 7๊ฐ์ง ์๊ฐ์ ๊ณผ์ ๋ฅผ ํตํด VLM์ ์ฑ๋ฅ์ ํ๊ฐํฉ๋๋ค. ์๋๋ ๋ช ๊ฐ์ง ๋ํ์ ์ธ ๊ณผ์ ์ ๊ทธ ๊ฒฐ๊ณผ์ ๋๋ค.
๊ณผ์ 1: ๊ต์ฐจ์ ์ ์ธ๊ธฐ
๋ ๊ฐ์ ์ ์ด ๋ช ๋ฒ ๊ต์ฐจํ๋์ง ๋ฌป๋ ๊ฐ๋จํ ์์ ์ ๋๋ค.
- ๊ฒฐ๊ณผ
- GPT-4o 48.67%
- Gemini-1.5 Pro 69.67%
- Sonnet-3 64.00%
- Sonnet-3.5 77.33%
- ํ๊ฐ: ๋ชจ๋ ๋ชจ๋ธ์ด ์ด ์์ ์์ ์ด๋ ค์์ ๊ฒช์์ผ๋ฉฐ, ํนํ GPT-4o๋ ๋งค์ฐ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๊ณผ์ 2: ๋ ์์ ์ํ ํ์ธ
๋ ์์ด ์๋ก ์ ์ดํ๊ฑฐ๋ ๊ฒน์น๋์ง ํ์ธํ๋ ์์ ์ ๋๋ค.
- ๊ฒฐ๊ณผ
- GPT-4o 72.69%
- Gemini-1.5 Pro 92.78%
- Sonnet-3 84.52%
- Sonnet-3.5 91.66%
- ํ๊ฐ: Gemini-1.5 Pro์ Sonnet-3.5๊ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ์ฌ์ ํ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์์ต๋๋ค.
๊ณผ์ 3: ๋๊ทธ๋ผ๋ฏธ ์น ๋ฌธ์ ํ์ธ
๋ฌธ์์ด์์ ๋๊ทธ๋ผ๋ฏธ ์น ๋ฌธ์๋ฅผ ์ธ์ํ๋ ์์ ์ ๋๋ค.
- ๊ฒฐ๊ณผ
- GPT-4o 70.18%
- Gemini-1.5 Pro 92.81%
- Sonnet-3 73.34%
- Sonnet-3.5 89.22%
- ํ๊ฐ: Gemini-1.5 Pro์ Sonnet-3.5๊ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ๋ชจ๋ ๋ชจ๋ธ์ด ์ฌ์ ํ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค.
๊ณผ์ 4: ๊ฒน์น๋ ๋ํ ์ธ๊ธฐ
์ค์ฒฉ๋ ๋ํ์ ์๋ฅผ ์ธ๋ ์์ ์ ๋๋ค.
- ๊ฒฐ๊ณผ
- GPT-4o 42.50%
- Gemini-1.5 Pro 20.83%
- Sonnet-3 31.66%
- Sonnet-3.5 44.16%
- ํ๊ฐ: ๋๋ถ๋ถ์ ๋ชจ๋ธ์ด ์ด ์์ ์์ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ํนํ Gemini-1.5 Pro๊ฐ ๋งค์ฐ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๊ณผ์ 5: ์ค์ฒฉ๋ ์ฌ๊ฐํ ์ธ๊ธฐ
์ค์ฒฉ๋ ์ฌ๊ฐํ์ ์๋ฅผ ์ธ๋ ์์ ์ ๋๋ค.
- ๊ฒฐ๊ณผ
- GPT-4o 48.33%
- Gemini-1.5 Pro 80.00%
- Sonnet-3 55.00%
- Sonnet-3.5 87.50%
- ํ๊ฐ: Sonnet-3.5๊ฐ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, Gemini-1.5 Pro๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๊ณผ์ 6: ๊ทธ๋ฆฌ๋ ํ๋ ฌ ์ธ๊ธฐ
๊ฒฉ์์ ํ๊ณผ ์ด์ ์๋ฅผ ์ธ๋ ์์ ์ ๋๋ค.
- ๊ฒฐ๊ณผ
- GPT-4o 39.58%
- Gemini-1.5 Pro 35.79%
- Sonnet-3 36.17%
- Sonnet-3.5 74.26%
- ํ๊ฐ: ๋ชจ๋ ๋ชจ๋ธ์ด ์ด๋ ค์์ ๊ฒช์์ผ๋, Sonnet-3.5๊ฐ ์๋์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๊ณผ์ 7: ๋จ์ผ ์์์ ๊ฒฝ๋ก ๋ฐ๋ผ๊ฐ๊ธฐ
๋จ์ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ๊ฐ๋ ์์ ์ ๋๋ค.
- ๊ฒฐ๊ณผ
- GPT-4o 45.89%
- Gemini-1.5 Pro 40.01%
- Sonnet-3 23.78%
- Sonnet-3.5 50.18%
- ํ๊ฐ: ๋ชจ๋ ๋ชจ๋ธ์ด ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ํนํ Sonnet-3์ด ๊ฐ์ฅ ์ ์กฐํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
์ข ํฉ ํ๊ฐ
๊ณผ์ | GPT-4o | Gemini-1.5 Pro | Claude-3 Sonnet | Claude-3.5 Sonnet |
---|---|---|---|---|
๊ต์ฐจ์ ์ ์ธ๊ธฐ | 48.67% | 69.67% | 64.00% | 77.33% |
๋ ์์ ์ํ ํ์ธ | 72.69% | 92.78% | 84.52% | 91.66% |
๋๊ทธ๋ผ๋ฏธ ์น ๋ฌธ์ ํ์ธ | 70.18% | 92.81% | 73.34% | 89.22% |
๊ฒน์น๋ ๋ํ ์ธ๊ธฐ (์) | 42.50% | 20.83% | 31.66% | 44.16% |
๊ฒน์น๋ ๋ํ ์ธ๊ธฐ (ํํ๊ณค) | 19.16% | 9.16% | 11.66% | 75.83% |
์ค์ฒฉ๋ ์ฌ๊ฐํ ์ธ๊ธฐ | 48.33% | 80.00% | 55.00% | 87.50% |
๊ทธ๋ฆฌ๋ ํ๋ ฌ ์ธ๊ธฐ | 39.58% | 35.79% | 36.17% | 74.26% |
๋จ์ผ ์์์ ๊ฒฝ๋ก ๋ฐ๋ผ๊ฐ๊ธฐ | 45.89% | 40.01% | 23.78% | 50.18% |
Sonnet-3.5 ๋ชจ๋ธ์ด ๋๋ถ๋ถ์ ๊ณผ์ ์์ ๋์ ์ ํ๋๋ฅผ ๋ณด์ด๋ฉฐ ๊ฐ์ฅ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ํนํ, ๋จ์ํ ์๊ฐ์ ์์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค. ๋ฐ๋ฉด, Gemini-1.5 Pro๋ ๋ช๋ช ๊ณผ์ ์์ ๋์ ์ฑ๊ณผ๋ฅผ ๋ณด์์ผ๋ ์ผ๊ด๋ ์ฑ๋ฅ์ ์ ์งํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค. GPT-4o์ Sonnet-3๋ ๋์ฒด๋ก ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ํน์ ๊ณผ์ ์์ ์ํธํ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ด๊ธฐ๋ ํ์ต๋๋ค.
์ด ์คํ์ ํตํด VLM์ด ๋จ์ํ ์๊ฐ์ ์์ ์์๋ ์ด๋ ค์์ ๊ฒช์ ์ ์์์ ํ์ธํ ์ ์์์ต๋๋ค. ๋ฐ๋ผ์ VLM์ ์๊ฐ์ ์ธ์ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํ ์ง์์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค.
๊ฒฐ๋ก ๋ฐ ์ ๋ง
์คํ ๊ฒฐ๊ณผ, ๋ชจ๋ VLM์ ๊ฐ๋จํ ์๊ฐ์ ์์ ์์๋ ์ผ๊ด๋๊ฒ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ด๋ VLM์ด ์ธ๋ถ์ ์ธ ์๊ฐ ์ ๋ณด๋ฅผ ์ ํํ๊ฒ ์ธ์ํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์์์ ๋ณด์ฌ์ค๋๋ค. ํนํ, BlindTest๋ VLM์ ์๊ฐ์ ์ธ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ์ค์ํ ๋๊ตฌ๋ก, VLM์ ํ๊ณ๋ฅผ ๋ช ํํ ๋ฐํ์ฃผ์์ต๋๋ค.
๋ฐ๋ผ์ VLM์ด ์ธ๊ฐ ์์ค์ ์๊ฐ์ ์ธ์ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ธฐ ์ํด์๋ ๋ ๋ง์ ๊ฐ์ ์ด ํ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ด๊ธฐ ์ตํฉ(early fusion) ์ ๊ทผ๋ฒ์ ์ฌ์ฉํ๋ ๋ฑ์ ์๋ก์ด ์ฐ๊ตฌ๊ฐ ํ์ํฉ๋๋ค. ๋ํ, ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋ค์ํํ์ฌ VLM์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒ๋ ์ค์ํ ๊ฒ ๊ฐ์ต๋๋ค!
์ฐธ๊ณ ์๋ฃ: ํ์ดํ ์น ํ๊ตญ ์ฌ์ฉ์ ๋ชจ์ ๋ฐ VLMs are Blind Github
์คํ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์