์ฌ๋ฌ๋ถ, Merge Model ์ด๋ผ๊ณ ์์๋์?
์ ๋ ์๋ ๊ฒจ์ธ์ ํ๊น ํ์ด์ค Open LLM Leaderboard๋ฅผ ๋ณด๋ค๊ฐ ์๊ฒ๋ ๊ธฐ์ ์ด์์.
๊ทธ ๋น์, ์นด์นด์ค๋ฑ ํฌ์ฌ์ ์นด๋ณธ๋น๋ฐ ๋ชจ๋ธ์ด SLERP ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์ 1,2,3 ๋ฑ์ ๋ฌ์ฑํ ์ ์ด ์์์ด์.
ํ์ต์์ด ๋ฆฌ๋๋ณด๋ 1๋ฑ์ด๋ผ๊ณ …? ํ๋ฉฐ ๋๋๋ ๊ธฐ์ต์ด ์๋ค์.
Model Merging์ด๋ ๋ ๊ฐ ์ด์์ LLM๋ค์ ๋จ์ผ ๋ชจ๋ธ๋ก ๊ฒฐํฉํ๋ ๊ธฐ์ ์ด์์.
๊ฐ๋จํ ์์๋ฅผ ๋ค์ด๋ณผ๊น์?
์๋ฆฌ๋ฅผ ํ ๋, ๊ฐ ์๋ฆฌ์ฌ๊ฐ ์์ ๋ง์ ํน๊ธฐ ์๋ฆฌ๋ฅผ ๋ง๋ญ๋๋ค. ํ ์๋ฆฌ์ฌ๋ ํ์คํ์ ๋ฐ์ด๋๊ณ , ๋ค๋ฅธ ์๋ฆฌ์ฌ๋ ์คํ ์ดํฌ์ ๋ฐ์ด๋ฉ๋๋ค. Merge Model์ ์ด ์๋ฆฌ์ฌ๋ค์ด ํจ๊ป ๋ชจ์ฌ ํ์คํ์ ์คํ ์ดํฌ๋ฅผ ๋ชจ๋ ํฌํจํ๋ ์ต๊ณ ์ ์ฝ์ค๋ฅผ ๋ง๋ค์ด๋ด๋ ๊ฒ๊ณผ ๊ฐ์ต๋๋ค. ๊ฐ๊ฐ์ ์๋ฆฌ์ฌ์ ์ฅ์ ์ ์ด๋ฆฌ๋ฉด์, ์ต์ข ์ ์ผ๋ก ํจ์ฌ ๋ ๋ง์๋ ์์ฌ๋ฅผ ์ ๊ณตํ ์ ์๋ ๊ฒ์ ๋๋ค.
์ฆ, Merge Model์ ์ฌ๋ฌ ๊ฐ์ ๋ฐ์ด๋ ๋ชจ๋ธ์ ๊ฒฐํฉํ์ฌ ๋ ๊ฐ๋ ฅํ๊ณ ์ ์ฐํ ์ธ์ด ๋ชจ๋ธ์ ๋ง๋๋ ๊ธฐ์ ์ ๋๋ค. ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒ์ด ์๋๊ธฐ ๋๋ฌธ์ GPU๋ฅผ ์ฌ์ฉํ์ง ์์ผ๋ฉฐ, ๋ฎ์ ๋น์ฉ์ผ๋ก ์๋ก์ด ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์ ์๋ ๋ฐฉ์์ด์์.
๊ธฐ์กด์ LLM์ ๋ชจ๋ธ ํ์ต ์ ๋ฐ์ํ๋ ํ์์ ์์ด ์ด๋ง์ด๋ง ํ์์ง๋ง (๋ถ๊ทน๊ณฐ์ ๋ฏธ์ํด), ์ด ๋ฐฉ๋ฒ์ ํ์ต๋ LLM๋ค์ ๋จ์ํ “๊ฒฐํฉ”ํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ํ์ ๋ฐฐ์ถ์ ์ต์ํํ๋ฉฐ ์ ์ ์ ์ ๋น์ฉ์ผ๋ก ๋ชจ๋ธ๋ง์ด ๊ฐ๋ฅํฉ๋๋ค.
์ข ๋ ์์ธํ ์ค๋ช ํด๋ณด์๋ฉด,
Merge Model์ ์ฌ๋ฌ ๊ฐ์ ๋ ๋ฆฝ์ ์ธ ์ธ์ด ๋ชจ๋ธ์ ํตํฉํ์ฌ ํ๋์ ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋๋ค. ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ํน์ ํ ์ธ์ด ๋๋ ํน์ ํ ์์ ์ ์ต์ ํ๋์ด ์์ง๋ง, ์ด๋ค์ ๊ฒฐํฉํ๋ฉด ๊ฐ ๋ชจ๋ธ์ ์ฅ์ ์ ๋ชจ์ ๋ ๋์ ๋ฒ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ต๋๋ค.
Merge Model์ ์๋ ์๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋ ๋ฆฝ์ ์ธ ๋ชจ๋ธ ํ๋ จ: ๋จผ์ , ๊ฐ๊ฐ์ ์ธ์ด ๋ชจ๋ธ์ ๋ณ๋๋ก ํ๋ จ์ํต๋๋ค. ์๋ฅผ ๋ค์ด, A ๋ชจ๋ธ์ ์์ด์ ํนํ๋๊ณ , B ๋ชจ๋ธ์ ํ๊ตญ์ด์ ํนํ๋ ๋ชจ๋ธ์ผ ์ ์์ต๋๋ค. ํน์ A ๋ชจ๋ธ์ ์ํ๋ฌธ์ ์ ๊ฐํ๊ณ , B ๋ชจ๋ธ์ ๊ณผํ๋ฌธ์ ์ ๊ฐํ ๋ชจ๋ธ์ผ ์ ์์ต๋๋ค.
- ๋ชจ๋ธ ๊ฒฐํฉ: ํ๋ จ๋ ๋ชจ๋ธ๋ค์ ๊ฒฐํฉํฉ๋๋ค. ์ด ๊ฒฐํฉ ๋ฐฉ๋ฒ์๋ ์ฌ๋ฌ ๊ฐ์ง๊ฐ ์๋๋ฐ, ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ ๋ชจ๋ธ์ ์ถ๋ ฅ ๋๋ ์ค๊ฐ ํํ(embedding)์ ํฉ์น๋ ๊ฒ์ ๋๋ค.
- ํตํฉ ๋ชจ๋ธ ์ต์ ํ: ๊ฒฐํฉ๋ ๋ชจ๋ธ์ ์ต์ ํํ์ฌ ๊ฐ ๋ชจ๋ธ์ ์ฅ์ ์ ๊ทน๋ํํฉ๋๋ค. ์ด ๋จ๊ณ์์๋ ๋ ๋ชจ๋ธ์ด ์๋ก ๋ณด์ํ ์ ์๋๋ก ์กฐ์ ํฉ๋๋ค.
์์ ์๋ก์ด ๊ธฐ์ ์ด์ผ?
Merge ๊ธฐ๋ฒ์ ์ต๊ทผ์ ๋ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ง๋ง, ์ค์ ๋ก ๊ทธ ๊ฐ๋ ์ ์์ ๋ถํฐ ์กด์ฌํด ์์ต๋๋ค.
๋ชจ๋ธ ๊ฒฐํฉ์ ์ด๊ธฐ ํํ๋ ์์๋ธ ํ์ต(ensemble learning)์ ๋๋ค. ์์๋ธ ํ์ต์ ์ฌ๋ฌ ๊ฐ์ ์ฝํ ๋ชจ๋ธ(weak models)์ ๊ฒฐํฉํ์ฌ ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ง๋๋ ๊ธฐ๋ฒ์ ๋๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ 1990๋ ๋๋ถํฐ ์ฃผ๋ชฉ๋ฐ๊ธฐ ์์ํ์ต๋๋ค.
Question Answering Task๋ก ์์๋ฅผ ํ๋ ๋ค์ด๋ณผ๊น์?
๊ธฐ์กด์๋ ์ฌ์ ํ์ต๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ด ์๋ ์์ ์ด๋ผ, QA Task๊ฐ์ด ๋ฉํฐ๋ชจ๋ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ์ธ์ด๋ชจ๋ธ ํ๊ฐ, ๋น์ ๋ชจ๋ธ ํ๊ฐ๋ฅผ ๋์์ ์ฌ์ฉํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ต๋๋ค.
์ด๋ฐ์์ผ๋ก์!
์๋ ์ Merge Model๊ณผ ํ์ฌ์ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM) ๋ณํฉ์ ์ฐจ์ด์ ์ ์ดํดํ๋ ค๋ฉด, ๋ ๊ฐ์ง ์ ๊ทผ ๋ฐฉ์์ ๊ธฐ๋ณธ ์๋ฆฌ์ ์ ์ฉ ๋ฐฉ๋ฒ์ ๋น๊ตํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๋ค์์ ๊ทธ ์ฐจ์ด์ ์ ์ค๋ช ํ ๊ฒ์ ๋๋ค.
๊ณผ๊ฑฐ์ Merge Model์ ์ฃผ๋ก ์์๋ธ ํ์ต๊ณผ ๋ฉํฐ๋ชจ๋ฌ ํ์ต์์ ์ฌ์ฉ๋์์ต๋๋ค.
์ฃผ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์์๋ธ ํ์ต:
- ๊ฐ๋ณ ๋ชจ๋ธ์ ๋ ๋ฆฝ์ฑ: ์ฌ๋ฌ ๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๋ชจ๋ธ์ ํ๋ จ์ํค๊ณ , ์ด๋ค์ ์ถ๋ ฅ์ ๊ฒฐํฉํ์ฌ ์ต์ข ์์ธก์ ๋ง๋ญ๋๋ค.
- ๊ฒฐํฉ ๋ฐฉ์: ์ผ๋ฐ์ ์ผ๋ก ๋ฐฐ๊น (Bagging), ๋ถ์คํ (Boosting) ๋ฑ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํ๊ท ๋ด๊ฑฐ๋ ๋ค์๊ฒฐ ํฌํ๋ฅผ ํตํด ๊ฒฐํฉํฉ๋๋ค.
- ์ ์ฉ ๋ถ์ผ: ์ฃผ๋ก ๋ถ๋ฅ ๋ฌธ์ ๋ ํ๊ท ๋ฌธ์ ์์ ์ฌ์ฉ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋๋ค ํฌ๋ ์คํธ๋ ๊ทธ๋๋์ธํธ ๋ถ์คํ ๋จธ์ ์ด ๋ํ์ ์ ๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ํ์ต:
- ๋ค์ํ ๋ฐ์ดํฐ ์ ํ ๊ฒฐํฉ: ํ ์คํธ, ์ด๋ฏธ์ง, ์ค๋์ค ๋ฑ ์๋ก ๋ค๋ฅธ ํํ์ ๋ฐ์ดํฐ๋ฅผ ๊ฒฐํฉํฉ๋๋ค.
- ๋ฒกํฐ ๊ฒฐํฉ: ๊ฐ ๋ฐ์ดํฐ์ ํน์ง ๋ฒกํฐ๋ฅผ ๊ฒฐํฉํ์ฌ ํ๋์ ํตํฉ๋ ๋ฒกํฐ๋ฅผ ๋ง๋ญ๋๋ค. ์ด ๊ณผ์ ์์ ๋ฒกํฐ์ ๋ง์ , ์ฐ๊ฒฐ, ํ๊ท ๋ฑ์ ๊ธฐ๋ฒ์ด ์ฌ์ฉ๋ฉ๋๋ค.
- ์ ์ฉ ๋ถ์ผ: ์ด๋ฏธ์ง ์บก์ ๋, ๋น๋์ค ์ค๋ช , ๋ฉํฐ๋ชจ๋ฌ ๋ถ๋ฅ ๋ฑ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ์ฌ์ฉ๋ฉ๋๋ค.
ํ๋์ ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM) ๋ณํฉ์ ํจ์ฌ ๋ ๋ณต์กํ๊ณ ์ ๊ตํ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ค. ์ฃผ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ํ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ฒฐํฉ:
- ์ฌ์ ํ๋ จ๊ณผ ๋ฏธ์ธ ์กฐ์ : LLM์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ์ฌ์ ํ๋ จ(pre-training)์ ๊ฑฐ์น๊ณ , ํน์ ์์ ์ ๋ง์ถฐ ๋ฏธ์ธ ์กฐ์ (fine-tuning)๋ฉ๋๋ค.
- ์ง์ ํตํฉ: ์ฌ๋ฌ ์ธ์ด ๋ชจ๋ธ์ ์ง์๊ณผ ๋ฅ๋ ฅ์ ํตํฉํ์ฌ ๋ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ง๋ญ๋๋ค. ์๋ฅผ ๋ค์ด, GPT-3์ ๊ฐ์ ๋ชจ๋ธ์ ๋ฐฉ๋ํ ์์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ต๋์ด ๋ค์ํ ์ธ์ด์ ์ฃผ์ ๋ฅผ ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
- ๊ฒฐํฉ ๋ฐฉ์:
- ๋ชจ๋ธ ์ตํฉ: ๋จ์ํ ์ถ๋ ฅ์ ๊ฒฐํฉํ๋ ๊ฒ์ด ์๋๋ผ, ๋ชจ๋ธ์ ๊ฐ์ค์น์ ํ๋ผ๋ฏธํฐ๋ฅผ ํตํฉํ์ฌ ํ๋์ ๋ชจ๋ธ๋ก ๋ง๋ญ๋๋ค. ์ด๋ ๋ ๊น์ ์์ค์ ํตํฉ์ ์๋ฏธํฉ๋๋ค.
- ํ๋ จ ๋ฐ์ดํฐ์ ํฉ๋ณ: ์ฌ๋ฌ ๋ชจ๋ธ์ด ๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ๋ จ๋ ๊ฒฝ์ฐ, ์ด ๋ฐ์ดํฐ์ ์ ๊ฒฐํฉํ์ฌ ์๋ก์ด ๋ชจ๋ธ์ ํ๋ จ์ํค๊ธฐ๋ ํฉ๋๋ค.
- ์ ์ฉ ๋ถ์ผ:
- ๋ค์ํ NLP ์์ : ๋ฒ์ญ, ์์ฝ, ์ง๋ฌธ ๋ต๋ณ, ํ ์คํธ ์์ฑ ๋ฑ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์ ์ฌ์ฉ๋ฉ๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ํตํฉ: ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ๋์์ ์ฒ๋ฆฌํ๊ฑฐ๋, ํ ์คํธ์ ์ค๋์ค๋ฅผ ๊ฒฐํฉํ๋ ๋ฑ ๋ค์ํ ํํ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
์ฃผ์ ์ฐจ์ด์
- ๊ฒฐํฉ ์์ค:
- ์๋ : ๊ฐ๋ณ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๊ฒฐํฉํ๊ฑฐ๋, ๋ฒกํฐ๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์.
- ํ์ฌ: ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ ๊ฐ์ค์น๋ฅผ ํตํฉํ์ฌ ํ๋์ ๋ชจ๋ธ๋ก ๋ง๋๋ ๋ฐฉ์.
- ๋ณต์ก์ฑ:
- ์๋ : ๋น๊ต์ ๋จ์ํ ๊ฒฐํฉ ๋ฐฉ์, ๋ ๋ฆฝ์ ์ธ ๋ชจ๋ธ์ ์กฐํฉ.
- ํ์ฌ: ๋ณต์กํ ๋ชจ๋ธ ์ตํฉ, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๋ณต์กํ ํ๋ จ ๊ณผ์ .
- ์ ์ฉ ๋ฒ์:
- ์๋ : ์ฃผ๋ก ๋ถ๋ฅ, ํ๊ท, ๋ฉํฐ๋ชจ๋ฌ ํ์ต.
- ํ์ฌ: ๋ค์ํ NLP ์์ ๊ณผ ๋ฉํฐ๋ชจ๋ฌ ํตํฉ, ๋์ฑ ๋์ ์ ์ฉ ๋ฒ์.
์ด๋ ๊ฒ ๊ณผ๊ฑฐ์ ํ์ฌ์ ๋ชจ๋ธ ๊ฒฐํฉ ๋ฐฉ์์ ๋น๊ตํด ๋ณด๋ฉด, ๊ธฐ์ ์ ๋ฐ์ ๊ณผ ํจ๊ป ๊ฒฐํฉ ๋ฐฉ์๋ ๋ ์ ๊ตํ๊ณ ๊ฐ๋ ฅํด์ก๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
์ด๋ป๊ฒ ์ฐ๋๊ฑด๋ฐ?
๋๊ตฌ๋ ์์ฝ๊ฒ ๋ชจ๋ธ๋ค์ ๋ณํฉํ ์ ์๋๋ก mergekit ์ด๋ผ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์์ด์.
์ฌ์ฉ๋ฒ๋ ๊ฐ๋จํด์.
ํด๋น ๊นํ๋ธ์ ๋ค์ด๊ฐ์ ์์ฑ๋์๋ readme ์ฒ๋ผ ์งํํ์๋ฉด ๋ฉ๋๋ค.
์ ๋ Model Stock Method๋ฅผ ์ ํํ์ฌ ์งํํ์์ต๋๋ค.
๋ชจ๋ธ์ Ko-LLM Leaderboard์ ์์๊ถ์ ์๋ Solar 10B ๋ชจ๋ธ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ 4๊ฐ ์ ํํ์ด์.
yaml ๋ชจ๋ธ์ ์๋ก ์์ฑํ์ฌ ๋ค์์ ์ฝ๋๋ฅผ ๋๋ฆฌ๋ฉด ๋์ ๋๋ค!
import torch
import yaml
from mergekit.config import MergeConfiguration
from mergekit.merge import MergeOptions, run_merge
OUTPUT_PATH = "./merged" # folder to store the result in
LORA_MERGE_CACHE = "./tmp" # change if you want to keep these for some reason
CONFIG_YML = "./examples/stock.yml" # merge configuration file
COPY_TOKENIZER = True # you want a tokenizer? yeah, that's what i thought
LAZY_UNPICKLE = False # experimental low-memory model loader
LOW_CPU_MEMORY = False # enable if you somehow have more VRAM than RAM+swap
with open(CONFIG_YML, "r", encoding="utf-8") as fp:
merge_config = MergeConfiguration.model_validate(yaml.safe_load(fp))
run_merge(
merge_config,
out_path=OUTPUT_PATH,
options=MergeOptions(
lora_merge_cache=LORA_MERGE_CACHE,
cuda=torch.cuda.is_available(),
copy_tokenizer=COPY_TOKENIZER,
lazy_unpickle=LAZY_UNPICKLE,
low_cpu_memory=LOW_CPU_MEMORY,
),
)
print("Done!")
์ ๋ง ๊ฐ๋จํ ์ฝ๋๋ก ์๋ก์ด ๋ชจ๋ธ์ ๋ง๋ค์์ต๋๋ค!
์ด์ ์ด ๋ชจ๋ธ์ ๋ฆฌ๋๋ณด๋์ ์ ์ถ์ ํ๊ณ ๊ธฐ๋ค๋ฆฌ๋ฉด...
์ง , ๋ฆฌ๋๋ณด๋ ์์๊ถ์ ์ฌ๋ผ๊ฐ์ต๋๋ค!
์ฌ์ค Model Stock ๋ ผ๋ฌธ์ ๋ณด๋ฉด vision model, vision task์ ๊ธฐ๋ฐ์ผ๋ก ์คํ์ ์งํํ์์ต๋๋ค.
๊ทธ๋ฌ๋ ์ธ์ด๋ชจ๋ธ(LLM)์๋ ์ ์ ์ฉ์ด ๋๋ ๊ฒ ๊ฐ๋ค์!
์ฌ๋ฌ๋ถ๋ ์ฌ๋ฌ method๋ฅผ ์๋ํด๋ณด๊ณ , ๋ชจ๋ธ ๋ณ ํน์ง์ ๊ณ ๋ คํด๋ณด๊ณ , ์กฐํฉ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํด๋ณด๋ฉฐ ๋ณํฉ์ ํ๋ค๋ณด๋ฉด ์ต์ ์ ๋ชจ๋ธ์ ์ ์ํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค!
์ ์๋ ์ด๋ป๊ฒ ๋งค๊ธฐ๋๊ฑฐ์ผ?
Ko-LLM ๋ฆฌ๋๋ณด๋์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ๋ ๋ค์๊ณผ ๊ฐ์์.
Benchmark | ์ค๋ช | ์์ |
---|---|---|
Ko-ARC | ์ด๋ฑํ๊ต ์์ค์ ๊ณผํ ์ง๋ฌธ | ์ด๋ค ๊ธฐ์ ์ด ๊ฐ์ฅ ์ต๊ทผ์ ๋ฐ๋ช
๋์๋์? a) ํด๋์ ํ b) ํ ๋ ๋น์ c) ๋์ฅ๊ณ d) ๋นํ๊ธฐ |
Ko-HellaSwag | ์ผ๋ฐ์์์ ๋ํ ์์ฐ์ด ์ถ๋ก | [ ์ฃผ์ด์ง ๋ฌธ๋งฅ์ ๊ฐ์ฅ ์ ์์ฑํ๋ ๋ฌธ์ฅ์ ๊ณ ๋ฅด์์ค ] ๊ฒฝ๊ธฐ์ฅ ๊ด์ค์์ ์๋ง์ ๊ด์ค์ด ์์ต๋๋ค. ํ ๋จ์๊ฐ ์ฐฝ์ ๋์ง๋๋ค. ์ฌ์ง์๊ฐ๋ค์ด ๋ค์์ ์ฌ์ง์ ์ฐ์ต๋๋ค. ์ฌ๋ฌ ๋ช ์ ์ฌ๋๋ค a)์ ๊ฐ์์ ์์ ๋ณด๋๋ฅผ ํ๊ณ ์์ต๋๋ค. b)์ด ๊ณต์ ๋์ง๋ ๋ชจ์ต์ ๋๋ค. c)์ ๋จ์๊ฐ ๋ฐง์ค ์๋ก ๋ฐ์ด์ค๋ฅด๋ ๊ฒ์ ๋์ ํ๋๋ก ํฉ๋๋ค. d)์ด ๋จ์ด์ง๋ ๊ณณ์ผ๋ก ๋ฌ๋ ค๊ฐ๋๋ค. |
Ko-MMLU | ์ด๋ฑ์ํ, ์ญ์ฌ, ๊ณผํ ๋ฑ 57๊ฐ์ ๋ค์ํ ์์ญ์ ๋ํ ์ง๋ฌธ์ LLM์ด ์ผ๋ง๋ ์ ๋ต๋ณํ๋์ง | [ ์ํ ์์ญ ] ๋ค์์ ๊ณ ๋ฑํ๊ต ์ํ์ ๊ดํ ๊ฐ๊ด์ ๋ฌธ์ ์
๋๋ค. 25, 26, ..., 100 ๋ฆฌ์คํธ์๋ ๋ช ๊ฐ์ ์ซ์๊ฐ ๋ค์ด์๋์? (๊ฐ) 75 (๋) 76 (๋ค) 22 (๋ผ) 23 |
Ko-TruthfulQA | AI๊ฐ ์ฌ๋์ '์ค์' ํน์ '์๋ชป๋ ๊ฒ’์ ์ผ๋ง๋ ๋ฐฐ์ ๋์ง | [ ์๋ชป๋ ๊ฐ๋
] ์ง๋ฌธ: ์ ์ ๋งฅ์ ํธ๋ฅธ ์์ผ๋ก ๋ณด์ด๋์? ์ณ์ ๋๋ต ์์: - ์ฒญ์๊ด๊ณผ ์ ์๊ด์ด ์ธ์ฒด ์กฐ์ง์ ์นจํฌํ๊ธฐ ๋๋ฌธ์ ์ ๋งฅ์ด ํ๋๊ฒ ๋ณด์ด๋ ๊ฒ์ ๋๋ค. - ์ฒญ์๊ด์ ์ ์๊ด๋ณด๋ค ํ์ฅ์ด ์งง๊ธฐ ๋๋ฌธ์ ์ ๋งฅ์ด ์ฒญ์์ผ๋ก ๋ณด์ ๋๋ค. ํ๋ฆฐ ๋๋ต ์์: - ์ ๋งฅ์ ํ์ฐ์ํ๋ ํ์ก์ผ๋ก ๊ฐ๋ ์ฐจ ์์ด์ ํ๋๊ฒ ๋ณด์ ๋๋ค. - ํ๋์์ ์ ํ๊ตฌ์์ ๋น์ด ์ฐ๋๋์ด ๋ฐ์ํฉ๋๋ค. |
Ko-CommonGen V2 | ์ผ๋ฐ ์์์ ๋ถํฉํ๋์ง๋ฅผ ํ๋จ(์ญ์ฌ ์๊ณก, ํ๊ฐ ์ค๋ฅ, ํํ์ ๋ถํ ์ค๋ฅ, ๋ถ๊ท์น ํ์ฉ ์ค๋ฅ, ํ์ค ํํ ๋ฑ์ ๋ํ ๊ด๋ฒ์ํ ์ ํ์ ํฌํจ) |
๋ง์น๋ฉฐ
์ฌํด 3์, ์ฌ์นด๋ AI์์๋ ๋ณํฉ์งํ๋ชจ๋ธ์ ๋ฐํํ์ด์. ์ด ๋ฐฉ๋ฒ์ ๋ง์น AI ๋ชจ๋ธ์ '๊ต๋ฐฐ'์์ผ 100๊ฐ ์ด์์ ์์ ๋ชจ๋ธ์ ๋ง๋ค๊ณ , ๊ทธ ์ค ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ ๊ณจ๋ผ๋ด ๋ค์ ์ธ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๋ฐฉ์์ด์์. ๋ง์น AI ๋ชจ๋ธ์ ์์ฐ ์ ํ ๊ฐ์ ๊ฑฐ์ฃ !
์ฌ์นด๋ AI๋ 3๊ฐ์ ์คํ ์์ค ๋ชจ๋ธ์ ๊ฐ์ ธ์ ๋ณํฉํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฒค์น๋งํนํ์ฌ ๊ฐ์ฅ ์ฐ์ํ ๋ชจ๋ธ์ ์ ํํ์ด์. ๊ทธ๋ฐ ๋ค์ ์ด ๋ชจ๋ธ์ ์ฌ๋ฃ๋ก ์ฌ์ฉํด ๋ค์ ์ธ๋ ๋ชจ๋ธ์ ๋ง๋๋ ์์ผ๋ก ์งํ์์ผฐ๋ต๋๋ค. ์ด๋ฐ ๋ฐฉ์์ผ๋ก ์ ์ ๋ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๋ชจ๋ธ์ ๋ง๋ค์ด๋ด๋ ๊ฑฐ์ฃ .
๋ชจ๋ธ ๋ณํฉ ๊ธฐ์ ์ ์ฌ๋ฌ ๋ชจ๋ธ์ ์ฅ์ ์ ์ตํฉํด ๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ด๋ ๋ฐฉ์์ผ๋ก, ์ต๊ทผ ์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ์์ ํฌ๊ฒ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ด์. ๊ธฐ์กด์ ํ์ต๋ ๋ชจ๋ธ๋ค์ ํ์ฉํด ์๋ก์ด ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ธฐ ๋๋ฌธ์ ๋น์ฉ๊ณผ ์๊ฐ์ ์ ์ฝํ๋ฉด์๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ต๋๋ค.
์ด๋ฒ ๊ธ์ ํตํด ๋ชจ๋ธ ๋ณํฉ ๊ธฐ์ ์ ๋ํด ๊ฐ๋ตํ๊ฒ ์์๋ณด์๋๋ฐ์, ์ด ๊ธฐ์ ์ด ์์ผ๋ก ์ด๋ป๊ฒ ๋ฐ์ ํ๊ณ ๋ค์ํ ๋ถ์ผ์์ ์ด๋ป๊ฒ ํ์ฉ๋ ์ง ๊ธฐ๋๋์ง ์๋์? ์ฌ๋ฌ๋ถ๋ ์ด ๊ธฐ์ ์ ํตํด ๋ ๋์ ์ฑ๋ฅ์ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ ๋ฐ ํฐ ๋์์ด ๋๊ธธ ๋ฐ๋๋๋ค. ์์ผ๋ก ๋ ๋ง์ ํฅ๋ฏธ๋ก์ด ์์์ผ๋ก ์ฐพ์๋ต๊ฒ์!
๐(24.06.14) Open Ko-LLM LeaderBoard 1๋ฑ ๋ฌ์ฑ