Schick, Timo, and Hinrich Schütze. "Exploiting Cloze-Questions for Few-Shot Text Classification and Natural Language Inference." Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. 2021.
Schick, Timo, and Hinrich Schütze. "It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners." Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021.
๋ ๊ฐ์ ๋ ผ๋ฌธ์ ๋ํด์ ๋ฆฌ๋ทฐ๋ฅผ ํ๋ คํ๋ค.
PET ๋ฐฉ์์ Few-shot Learning์ ๋ํ์ฌ ๊ธฐ์ ๋ ๋ ผ๋ฌธ์ด๋ค.
๊ฐ๋จํ๊ฒ Overview ๋๋์ผ๋ก Few-shot Learning์ด ๋ฌด์์ธ์ง ์ค๋ช ํด๋ณด์๋ฉด,
์ด๋ฐ์์ผ๋ก ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ์ฃผ๊ณ ๋ฌด์์ด๋๊ณ ๋ฌผ์ด๋ณด๋ฉด ์ฐ๋ฆฌ๋ ํ๋ฒ์ ๋ง์ถ๊ธฐ ์ด๋ ค์ธ ๊ฒ์ด๋ค.
๊ทผ๋ฐ, ์ด๋ฐ์์ผ๋ก ์์ ๋ฅผ ์ฃผ๊ณ ๋ฌผ์ด๋ณด๋ฉด ์ฐ๋ฆฌ๋ Pangolin์ด๋ผ๊ณ ๋ง์ถ ์ ์์ ๊ฒ์ด๋ค.
์ด๊ฒ ์ด๋ป๊ฒ ๊ฐ๋ฅํ ๊น?
์ธ๊ณต์ง๋ฅ์ ํตํด์ ์ง๋ฌธํ ์ด๋ฏธ์ง์ ๋๋ฌผ์ด Pangolin ์ธ๊ฒ์ ๋ง์ถ๋ ค๋ฉด ์๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ํน์ง์ ํ์ตํ์ฌ ๋ง์ถฐ์ผ ํ ์๋ ์๋ค.
๊ทธ๋ฐ๋ฐ ์ฌ๋์ ๋ช ์ฅ์ ๋ฐ์ดํฐ๋ง ์๋๋ผ๋ ์ด ๋๋ฌผ์ด ๋ฌด์์ธ์ง ๋ง์ถ ์ ์๋ค.
์ฐ๋ฆฌ๋ ์ ๋๋ฌผ์ ๋ํด์ ํ์ตํ ๊ฒ์ด ์๋, ๋ฌด์ธ๊ฐ๋ฅผ ๊ตฌ๋ถํ๋ ๋ฐฉ๋ฒ์ ์๊ณ ์๋ค.
์ด๋ ๊ฒ '๊ตฌ๋ถ ํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๋ ๊ฒ'์ ๋ฉํ ๋ฌ๋(Meta Learning)์ด๋ผ๊ณ ํ๋ค.
๋ฉํ ๋ฌ๋์์๋ ์๋ง์ ๊ธฐ๋ฒ์ด ์กด์ฌํ์ง๋ง, Application ์์ ์ํ๋ Few-shot Learning์ ๋ํด์ ์๊ธฐํ๊ณ ์ ํ๋ค.
๊ธฐ์กด ์ง๋ํ์ต(Supervised Learning) ๊ฐ์ ๊ฒฝ์ฐ๋ ํน์ Task๋ฅผ ์ ํ์ฌ ์ด๋ฅผ ์ํ ๋ฐ์ดํฐ๋ค์ ๋ชจ์๋ค์์, ํ์ต์ ์งํํ๊ณ , ์ด ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ์ง๊ณ Test Data๋ฅผ ๋ฃ์ด์ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ค.
์ ์ดํ์ต(Transfer Learning)๊ฐ์ ๊ฒฝ์ฐ์๋, ๋ค๋ฅธ Task์์ ์ฌ์ฉํ ๊ธฐ์กด ํ์ต๋ ๋ชจ๋ธ์์ Fine-tuning์ด๋ ๋๊ฒฐ ํด์ ๋ฑ์ ํตํด์ ์ํ๋ Task๋ฅผ ์ํ ์ ์ด ํ์ต์ ์งํ ํ, ์ด ๋ชจ๋ธ์ ๊ฐ์ง๊ณ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ด ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ค.
Meta Learning ๊ฐ์ ๊ฒฝ์ฐ๋ Task๋ฅผ ์ ํ์ง ์๊ณ ์ฌ๋ฌ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ๊ทธ ๋ฐ์ดํฐ๋ค์ ํน์ง๊ณผ ํจํด์ ํ์ตํ ๋ค์์, ํน์ Task๋ฅผ ์ํ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ์ ๋ฃ์ด์ ์์ธก๋ชจ๋ธ์ ์ ์ํ๊ณ ์ฌ๊ธฐ๋ค๊ฐ Test dataset์ ๋ฃ์ด ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ค.
NLP ๊ฒฝ์ฐ์๋, ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ด์ LM์ ์ ์ํ๊ณ , ์ด๋ฅผ ๋ค์ด์คํธ๋ฆผ ํ ์คํฌ์ ์ด์ฉํ๋ ๋ฐฉ์์ผ๋ก ๋ง์ด ์ฐ๊ตฌ๋๊ณ ์๋ค.
๋ณดํต LM์ ํ์ตํ ๋ Unsupervise pre-training Task ๋ฐฉ์์ผ๋ก ํ์ตํ๋๋ฐ, ์์๊ฐ์ด ๋ค์ ํ ํฐ์ ์์ธกํ๋ ์์ ์ด๋, Bert๊ฐ์ด Mask ํ ํฐ์ ์์ธกํ๋ ์์ ๋ฑ์ ๋งํ๋ค.
์ด๋ ๊ฒ ๋ง๋ LM์ ์ฌ๋ฌ NLP Task์ ์ฌ์ฉ๋ ์ ์๋ค.
Zero-shot ์ Task์ ๋ํ ์ค๋ช ๋ง ํ๊ณ ๋ฐ๋ก ์์ธกํ๋ ๊ฒ์ด๊ณ ,
One-shot ์ ์ค๋ช ์ ํด์ฃผ๊ณ ํ๋์ ์์ ๋ง ์ฃผ๊ณ ๋ง์ถ๋ ๊ฒ,
Few-shot ์ 2๊ฐ ์ด์์ ์์ ๋ฅผ ์ฃผ๊ณ ๋ง์ถ๋ ๊ฒ์ด๋ค.
Fine-tuning ์ฒ๋ผ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๊ฐ ์ด๋ฃจ์ด์ง๋ ๋ฐฉ์์ด ์๋ ๋ชจ๋ธ์ ์ง์์ ์ด์ฉํ๋ ์์ธก ๋ฐฉ๋ฒ์ด๋ค.
๋ ผ๋ฌธ์ ๋ณด๋ฉด LM์ด ์ ์๋ํ ๋ ค๋ฉด ํฐ LM์ด ์๊ตฌ๋๋๋ฐ, GPT๊ฐ์ด ํฐ LM์ ํ์ค์ธ๊ณ ์๋๋ฆฌ์ค์์ ๋ง๋ค์ด ์ฐ๊ธฐ ํ๋ค๊ณ ํ์๋ ๋ง์ด ๋ฐฐ์ถ๋๋ค. GPT ๋ง๋๋๋ฐ ๋ช๋ฐฑ์ต์ฉ ์ผ์ผ๋.. ์ผ๋ฐ์ธ๋ค์ ๋ชป๋ง๋ค์ด ์..
๊ทผ๋ฐ ์ด๋ฐ GPT๋ณด๋ค ๋ช๋ช ํน์ Task์์ ํ๋ผ๋ฏธํฐ๋ ๋ช์ฒ๋ฐฐ ์ ์๋ฐ ์ฑ๋ฅ์ ํจ์ฌ ๋์ PET ๋ฐฉ์์ ์๊ฐํ๋ค.
๊ธฐ๋ณธ ์์ด๋์ด๋ฅผ BERT๋ก ์ค๋ช ํ์๋ฉด, ๋ชจ๋ธ์ ๊ทธ๋ฅ ์ ๋ ๊ฒ ๋ฌธ์ฅ์ ๋ฃ์ผ๋ฉด ๋ชจ๋ธ์ ๋ชจ๋ฅด๋๋ฐ, BERT์ ํ์ต๋ฐฉ์์ธ Masked Token์ ๋ฃ์ผ๋ฉด ์ ๋ง์ถ ๊ฒ์ด๋ค.
LM๊ฐ์ ๊ฒฝ์ฐ๋ ๋ง์ Corpus๋ฅผ ํ์ตํ์๊ธฐ์, ํ์ต๋์ด์ง ๋ชจ๋ธ์ ์ง์์ ์ด์ฉํ์ฌ ๋ฌธ์ ๋ฅผ ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋๋ก ๋ณํํ ๋ค์์ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํด ๋ณด์๋ ์์ด๋์ด์ด๋ค.
์ด ๋ฐฉ์์ด PET ์ธ๋ฐ, Pattern๊ณผ Verbalizer๋ฅผ ํ ์์ Pair๋ก ๋ง๋ค์ด์ ์ฌ์ฉํ์๋ ๊ฐ๋ ์ด๋ค.
์ฝ๊ฒ ์ค๋ช ํ์๋ฉด,
Input์ ๋ค์ด๊ฐ๋ Sentence๋ค์ ๋น์นธ์ด ๋ค๋ฆฐ Cloze Question์ผ๋ก ๋ณํํ์ฌ, ๋น์นธ์ ๋ง์ถ๋๋ก ํ์๋ ๊ฑด๋ฐ,
์๋ target๊ฐ์ธ ๋ผ๋ฒจ๋ค์ Yes๋ No ์ฒ๋ผ ๋ฐ๊พธ์ด์ฃผ๋ Verbalizer ์ ์ฌ์ฉํ ๋ค์์ ๋ง์ถ๋ ๊ฒ์ด๋ค.
์ด์ฒ๋ผ ๋ณํ๋ Cloze Question์ MLM์ ๋ฃ์ด์ ๋ก์ง๊ฐ์ ๋ฐ๊ณ , Vocab์ ์๋ง์ ํ ํฐ์ค์์ ํ์ํ Yes, No ํ ํฐ๋ง ๊ฐ์ง๊ณ ์ด๋ค๋ง softmax๋ก ํ์ฌ ๋น์นธ์ด ๋ญ๊ฐ ๋์ฌ์ง ์์ธกํ๋ ๊ฒ์ด๋ค.
๋ชจ๋ธ์ ์์ธกํ ๋๋ ์์๊ฐ์ด ํ์ง๋ง, ๋ชจ๋ธ์ ํ์ตํ๊ณ ์ถ๋ค๋ฉด ์์์ ๋์จ ๊ฐ์์ ํฌ๋ก์ค ์ํธ๋กํผ๋ฅผ ์ฌ์ฉํ์ฌ Loss๊ฐ์ ๊ตฌํ๊ณ , Vocab์ ์๋ ์ ์ฒด ํ ํฐ์ ๋ํด์๋ Loss๊ฐ์ ๊ตฌํด์ ์ด ๋์ ํฉ์ณ์ ์ ์ฒด์ ์ธ Loss๋ฅผ ์ค์ ํ์ฌ ํ์ตํ๋ค.
๊ทธ๋ฌ๊ณ ์ด๋ ๊ฒ ์์ธกํ๋ PVP์์ ํจํด์ ๋ค๋ฅด๊ฒ ์ค์ ํ์ฌ ์ฌ๋ฌ๊ฐ์ PVP๋ฅผ ๋ง๋ ๋ค์์ ์ด๋ฅผ ์์๋ธํ์ฌ ํ์ตํ๋ฉด ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํ๋ค. ์ด๋ ๊ฒํ๋ฉด ๊ฐ๊ธฐ ๋ค๋ฅธ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์ป์์ ์๋ค. ์ค๋ฅธ์ชฝ์ ์๋ก์ด ๋ฐ์ดํฐ๋ ์คํ๊ฐ ๋ฌ๋ค. "" ์์ด์ผํ๋ค.
์ด๋ ๊ฒ ๊ฐ๊ธฐ ๋ค๋ฅธ ํจํด์ผ๋ก ์ฌ๋ฌ PLM์ ๋ํด ํ์ตํ๋ ๊ฒ์ ๋ฐ๋ณตํ๋๊ฒ์ด iPET์ด๋ค.
๋๋ฒ์งธ ๋ ผ๋ฌธ์์ ๋์จ๊ฒ ๋ฉํฐํ ๋ง์คํฌ๋์ธ๋ฐ, ์์ธกํด์ผํ๋ ํ ํฐ์ด ํ๋๊ฐ ์๋ ๋๊ฐ ์ด์์ผ ์๋ ์์ผ๋, ๋น์นธ ๋๊ฐ ๋ซ์ด๋๊ณ ๊ฐ๊ฐ์ ํ๋ฅ ๊ฐ์ ๋ฐ๋ผ ๋์ ํ๋ฅ ์ ๊ฐ์ง ํ ํฐ์ ๋จผ์ ๋ฃ๋ ๋ฐฉ์์ผ๋ก ์งํํ๋ฉด ๋น์นธ์ ๋๊ฐ๋ ๋ซ์ ์ ์๋ค๋ ์๊ธฐ์ด๋ค.
๋ ผ๋ฌธ์์๋ ๊ฐ Task๋ง๋ค ํจํด์ ์ด๋ป๊ฒ ํ๋ฉด ์ข์์ง ์จ๋จ๋๋ฐ, ์ฌ๊ธฐ์ ์ฝ๊ฐ์ ๋จ์ ์ด ๋์จ๋ค.
์ ๊ทํ๋ ๊ณต์ ์์ด ์ ์๊ฐ ์ผ์ผ์ด ์๊ธฐ๋ก ํด๋ณธ ํ์์ด๋ค.
์ด์จ๋ ์ด๋ฐ ๋ฐฉ์์ผ๋ก Roberta๋ฅผ ํ์ตํด๋ณด๋ ๋ฐ์ดํฐ๊ฐ ๋ง์ด ์์ ๋, iPET ๋ฐฉ์์ด ๋ค๋ฅธ ๋น์ง๋ํ์ต ๋ฐ ์ง๋ํ์ต๋ณด๋ค ์ฑ๋ฅ์ด ๋๋ค๊ณ ํ๋ค.
์ฌ๊ธฐ ๊ฒฐ๊ณผ๊ฐ ์ค์ํ๋ฐ, ALBERT๋ฅผ ์ฌ์ฉํ์์๋ ํ๋ผ๋ฏธํฐ๋ 223M ์ด์ง๋ง, ๊ทธ์๋ฐํด GPT๋ 175,000M์ด๋ค.
๊ทผ๋ฐ ํ๊ท ์ ๋ณด๋ฉด ํ๋ผ๋ฏธํฐ๊ฐ ํจ์ฌ ํฐ GPT๋ณด๋ค ์ฑ๋ฅ์ด ๋ ๋๊ฒ ๋์จ๋ค.
๋ฐ๋ผ์ ๋ ผ๋ฌธ์์ ์ฃผ์ฅํ๋ ๊ฑด, ์์ LM์ด๋ผ๋ ๋ ผ๋ฌธ์์ ์ ์ํ ๊ฒ ์ฒ๋ผ ๊ทธ ๋ชจ๋ธ์ ์ง์์ ํ์ฉํ์ฌ ์์ธกํ๋ฉด ๋ ์๋์ฌ ์๋ ์๋ค๋ ๊ฒ์ด๋ค.