Schick, Timo, and Hinrich Schรผtze. "Exploiting Cloze-Questions for Few-Shot Text Classification and Natural Language Inference." Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. 2021.

 

Schick, Timo, and Hinrich Schรผtze. "Itโ€™s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners." Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021.

 

๋‘ ๊ฐœ์˜ ๋…ผ๋ฌธ์— ๋Œ€ํ•ด์„œ ๋ฆฌ๋ทฐ๋ฅผ ํ•˜๋ คํ•œ๋‹ค.

PET ๋ฐฉ์‹์˜ Few-shot Learning์— ๋Œ€ํ•˜์—ฌ ๊ธฐ์ˆ ๋œ ๋…ผ๋ฌธ์ด๋‹ค.

 

๊ฐ„๋‹จํ•˜๊ฒŒ Overview ๋А๋‚Œ์œผ๋กœ Few-shot Learning์ด ๋ฌด์—‡์ธ์ง€ ์„ค๋ช…ํ•ด๋ณด์ž๋ฉด,

์ด๋Ÿฐ์‹์œผ๋กœ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋ฅผ ์ฃผ๊ณ  ๋ฌด์—‡์ด๋ƒ๊ณ  ๋ฌผ์–ด๋ณด๋ฉด ์šฐ๋ฆฌ๋Š” ํ•œ๋ฒˆ์— ๋งž์ถ”๊ธฐ ์–ด๋ ค์šธ ๊ฒƒ์ด๋‹ค.

๊ทผ๋ฐ, ์ด๋Ÿฐ์‹์œผ๋กœ ์˜ˆ์ œ๋ฅผ ์ฃผ๊ณ  ๋ฌผ์–ด๋ณด๋ฉด ์šฐ๋ฆฌ๋Š” Pangolin์ด๋ผ๊ณ  ๋งž์ถœ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

์ด๊ฒŒ ์–ด๋–ป๊ฒŒ ๊ฐ€๋Šฅํ• ๊นŒ?

์ธ๊ณต์ง€๋Šฅ์„ ํ†ตํ•ด์„œ ์งˆ๋ฌธํ•œ ์ด๋ฏธ์ง€์† ๋™๋ฌผ์ด Pangolin ์ธ๊ฒƒ์„ ๋งž์ถ”๋ ค๋ฉด ์ˆ˜๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ํŠน์ง•์„ ํ•™์Šตํ•˜์—ฌ ๋งž์ถฐ์•ผ ํ• ์ˆ˜๋„ ์žˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ ์‚ฌ๋žŒ์€ ๋ช‡ ์žฅ์˜ ๋ฐ์ดํ„ฐ๋งŒ ์žˆ๋”๋ผ๋„ ์ด ๋™๋ฌผ์ด ๋ฌด์—‡์ธ์ง€ ๋งž์ถœ ์ˆ˜ ์žˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์ € ๋™๋ฌผ์— ๋Œ€ํ•ด์„œ ํ•™์Šตํ•œ ๊ฒƒ์ด ์•„๋‹Œ, ๋ฌด์–ธ๊ฐ€๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ๊ณ ์žˆ๋‹ค.

์ด๋ ‡๊ฒŒ '๊ตฌ๋ถ„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์šฐ๋Š” ๊ฒƒ'์„ ๋ฉ”ํƒ€ ๋Ÿฌ๋‹(Meta Learning)์ด๋ผ๊ณ  ํ•œ๋‹ค.

๋ฉ”ํƒ€ ๋Ÿฌ๋‹์—์„œ๋„ ์ˆ˜๋งŽ์€ ๊ธฐ๋ฒ•์ด ์กด์žฌํ•˜์ง€๋งŒ, Application ์•ˆ์— ์†ํ•˜๋Š” Few-shot Learning์— ๋Œ€ํ•ด์„œ ์–˜๊ธฐํ•˜๊ณ ์ž ํ•œ๋‹ค.

 

๊ธฐ์กด ์ง€๋„ํ•™์Šต(Supervised Learning) ๊ฐ™์€ ๊ฒฝ์šฐ๋Š” ํŠน์ • Task๋ฅผ ์ •ํ•˜์—ฌ ์ด๋ฅผ ์œ„ํ•œ ๋ฐ์ดํ„ฐ๋“ค์„ ๋ชจ์€๋‹ค์Œ์—, ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๊ณ , ์ด ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๊ฐ€์ง€๊ณ  Test Data๋ฅผ ๋„ฃ์–ด์„œ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค.

 

์ „์ดํ•™์Šต(Transfer Learning)๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š”, ๋‹ค๋ฅธ Task์—์„œ ์‚ฌ์šฉํ•œ ๊ธฐ์กด ํ•™์Šต๋œ ๋ชจ๋ธ์—์„œ Fine-tuning์ด๋‚˜ ๋™๊ฒฐ ํ•ด์ œ ๋“ฑ์„ ํ†ตํ•ด์„œ ์›ํ•˜๋Š” Task๋ฅผ ์œ„ํ•œ ์ „์ด ํ•™์Šต์„ ์ง„ํ–‰ ํ›„, ์ด ๋ชจ๋ธ์„ ๊ฐ€์ง€๊ณ  ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ๋„ฃ์–ด ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค.

 

Meta Learning ๊ฐ™์€ ๊ฒฝ์šฐ๋Š” Task๋ฅผ ์ •ํ•˜์ง€ ์•Š๊ณ  ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ๊ทธ ๋ฐ์ดํ„ฐ๋“ค์˜ ํŠน์ง•๊ณผ ํŒจํ„ด์„ ํ•™์Šตํ•œ ๋‹ค์Œ์—, ํŠน์ • Task๋ฅผ ์œ„ํ•œ ์˜ˆ์ œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ์— ๋„ฃ์–ด์„œ  ์˜ˆ์ธก๋ชจ๋ธ์„ ์ œ์ž‘ํ•˜๊ณ  ์—ฌ๊ธฐ๋‹ค๊ฐ€ Test dataset์„ ๋„ฃ์–ด ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. 

 

NLP ๊ฒฝ์šฐ์—๋„, ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋„ฃ์–ด์„œ LM์„ ์ œ์ž‘ํ•˜๊ณ , ์ด๋ฅผ ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ…Œ์Šคํฌ์— ์ด์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋งŽ์ด ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ๋‹ค.

๋ณดํ†ต LM์„ ํ•™์Šตํ•  ๋•Œ Unsupervise pre-training Task ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•˜๋Š”๋ฐ, ์œ„์™€๊ฐ™์ด ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ์ž‘์—…์ด๋‚˜, Bert๊ฐ™์ด Mask ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ์ž‘์—… ๋“ฑ์„ ๋งํ•œ๋‹ค.

 

์ด๋ ‡๊ฒŒ ๋งŒ๋“  LM์€ ์—ฌ๋Ÿฌ NLP Task์— ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.

Zero-shot ์€ Task์— ๋Œ€ํ•œ ์„ค๋ช…๋งŒ ํ•˜๊ณ  ๋ฐ”๋กœ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด๊ณ ,

One-shot ์€ ์„ค๋ช…์„ ํ•ด์ฃผ๊ณ  ํ•˜๋‚˜์˜ ์˜ˆ์ œ๋งŒ ์ฃผ๊ณ  ๋งž์ถ”๋Š” ๊ฒƒ,

Few-shot ์€ 2๊ฐœ ์ด์ƒ์˜ ์˜ˆ์ œ๋ฅผ ์ฃผ๊ณ  ๋งž์ถ”๋Š” ๊ฒƒ์ด๋‹ค.

 

Fine-tuning ์ฒ˜๋Ÿผ ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๊ฐ€ ์ด๋ฃจ์–ด์ง€๋Š” ๋ฐฉ์‹์ด ์•„๋‹Œ ๋ชจ๋ธ์˜ ์ง€์‹์„ ์ด์šฉํ•˜๋Š” ์˜ˆ์ธก ๋ฐฉ๋ฒ•์ด๋‹ค.

 

๋…ผ๋ฌธ์„ ๋ณด๋ฉด LM์ด ์ž˜ ์ž‘๋™ํ• ๋ ค๋ฉด ํฐ LM์ด ์š”๊ตฌ๋˜๋Š”๋ฐ, GPT๊ฐ™์ด ํฐ LM์€ ํ˜„์‹ค์„ธ๊ณ„ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ๋งŒ๋“ค์–ด ์“ฐ๊ธฐ ํž˜๋“ค๊ณ  ํƒ„์†Œ๋„ ๋งŽ์ด ๋ฐฐ์ถœ๋œ๋‹ค. GPT ๋งŒ๋“œ๋Š”๋ฐ ๋ช‡๋ฐฑ์–ต์”ฉ ์ผ์œผ๋‹ˆ.. ์ผ๋ฐ˜์ธ๋“ค์€ ๋ชป๋งŒ๋“ค์–ด ์”€..

 

๊ทผ๋ฐ ์ด๋Ÿฐ GPT๋ณด๋‹ค ๋ช‡๋ช‡ ํŠน์ • Task์—์„œ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋ช‡์ฒœ๋ฐฐ ์ ์€๋ฐ ์„ฑ๋Šฅ์€ ํ›จ์”ฌ ๋†’์€ PET ๋ฐฉ์‹์„ ์†Œ๊ฐœํ•œ๋‹ค.

 

๊ธฐ๋ณธ ์•„์ด๋””์–ด๋ฅผ BERT๋กœ ์„ค๋ช…ํ•˜์ž๋ฉด, ๋ชจ๋ธ์— ๊ทธ๋ƒฅ ์ €๋ ‡๊ฒŒ ๋ฌธ์žฅ์„ ๋„ฃ์œผ๋ฉด ๋ชจ๋ธ์€ ๋ชจ๋ฅด๋Š”๋ฐ, BERT์˜ ํ•™์Šต๋ฐฉ์‹์ธ Masked Token์„ ๋„ฃ์œผ๋ฉด ์ž˜ ๋งž์ถœ ๊ฒƒ์ด๋‹ค.

LM๊ฐ™์€ ๊ฒฝ์šฐ๋Š” ๋งŽ์€ Corpus๋ฅผ ํ•™์Šตํ•˜์˜€๊ธฐ์—, ํ•™์Šต๋˜์–ด์ง„ ๋ชจ๋ธ์˜ ์ง€์‹์„ ์ด์šฉํ•˜์—ฌ ๋ฌธ์ œ๋ฅผ ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ณ€ํ˜•ํ•œ ๋‹ค์Œ์— ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•ด ๋ณด์ž๋Š” ์•„์ด๋””์–ด์ด๋‹ค.

 

์ด ๋ฐฉ์‹์ด PET ์ธ๋ฐ, Pattern๊ณผ Verbalizer๋ฅผ ํ•œ ์Œ์˜ Pair๋กœ ๋งŒ๋“ค์–ด์„œ ์‚ฌ์šฉํ•˜์ž๋Š” ๊ฐœ๋…์ด๋‹ค.

์‰ฝ๊ฒŒ ์„ค๋ช…ํ•˜์ž๋ฉด,

Input์— ๋“ค์–ด๊ฐ€๋Š” Sentence๋“ค์„ ๋นˆ์นธ์ด ๋šค๋ฆฐ Cloze Question์œผ๋กœ ๋ณ€ํ˜•ํ•˜์—ฌ, ๋นˆ์นธ์„ ๋งž์ถ”๋„๋ก ํ•˜์ž๋Š” ๊ฑด๋ฐ,

์›๋ž˜ target๊ฐ’์ธ ๋ผ๋ฒจ๋“ค์„ Yes๋‚˜ No ์ฒ˜๋Ÿผ ๋ฐ”๊พธ์–ด์ฃผ๋Š” Verbalizer ์„ ์‚ฌ์šฉํ•œ ๋‹ค์Œ์— ๋งž์ถ”๋Š” ๊ฒƒ์ด๋‹ค.

 

์ด์ฒ˜๋Ÿผ ๋ณ€ํ˜•๋œ Cloze Question์„ MLM์— ๋„ฃ์–ด์„œ ๋กœ์ง๊ฐ’์„ ๋ฐ›๊ณ , Vocab์— ์ˆ˜๋งŽ์€ ํ† ํฐ์ค‘์—์„œ ํ•„์š”ํ•œ Yes, No ํ† ํฐ๋งŒ ๊ฐ€์ง€๊ณ  ์ด๋“ค๋งŒ softmax๋กœ ํ•˜์—ฌ ๋นˆ์นธ์ด ๋ญ๊ฐ€ ๋‚˜์˜ฌ์ง€ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๋ชจ๋ธ์„ ์˜ˆ์ธกํ• ๋•Œ๋Š” ์œ„์™€๊ฐ™์ด ํ•˜์ง€๋งŒ, ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด ์œ„์—์„œ ๋‚˜์˜จ ๊ฐ’์—์„œ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Loss๊ฐ’์„ ๊ตฌํ•˜๊ณ , Vocab์— ์žˆ๋Š” ์ „์ฒด ํ† ํฐ์— ๋Œ€ํ•ด์„œ๋„ Loss๊ฐ’์„ ๊ตฌํ•ด์„œ ์ด ๋‘˜์„ ํ•ฉ์ณ์„œ ์ „์ฒด์ ์ธ Loss๋ฅผ ์„ค์ •ํ•˜์—ฌ ํ•™์Šตํ•œ๋‹ค.

๊ทธ๋Ÿฌ๊ณ  ์ด๋ ‡๊ฒŒ ์˜ˆ์ธกํ•˜๋Š” PVP์—์„œ ํŒจํ„ด์„ ๋‹ค๋ฅด๊ฒŒ ์„ค์ •ํ•˜์—ฌ ์—ฌ๋Ÿฌ๊ฐœ์˜ PVP๋ฅผ ๋งŒ๋“ ๋‹ค์Œ์— ์ด๋ฅผ ์•™์ƒ๋ธ”ํ•˜์—ฌ ํ•™์Šตํ•˜๋ฉด ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ ํ•œ๋‹ค. ์ด๋ ‡๊ฒŒํ•˜๋ฉด ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์–ป์„์ˆ˜ ์žˆ๋‹ค. ์˜ค๋ฅธ์ชฝ์— ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋Š” ์˜คํƒ€๊ฐ€ ๋‚ฌ๋‹ค. "" ์žˆ์–ด์•ผํ•œ๋‹ค.

 

์ด๋ ‡๊ฒŒ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ํŒจํ„ด์œผ๋กœ ์—ฌ๋Ÿฌ PLM์— ๋Œ€ํ•ด ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ๋ฐ˜๋ณตํ•˜๋Š”๊ฒƒ์ด iPET์ด๋‹ค. 

 

๋‘๋ฒˆ์งธ ๋…ผ๋ฌธ์—์„œ ๋‚˜์˜จ๊ฒŒ ๋ฉ€ํ‹ฐํ”Œ ๋งˆ์Šคํฌ๋“œ์ธ๋ฐ, ์˜ˆ์ธกํ•ด์•ผํ•˜๋Š” ํ† ํฐ์ด ํ•˜๋‚˜๊ฐ€ ์•„๋‹Œ ๋‘๊ฐœ ์ด์ƒ์ผ ์ˆ˜๋„ ์žˆ์œผ๋‹ˆ, ๋นˆ์นธ ๋‘๊ฐœ ๋šซ์–ด๋†“๊ณ  ๊ฐ๊ฐ์˜ ํ™•๋ฅ ๊ฐ’์— ๋”ฐ๋ผ ๋†’์€ ํ™•๋ฅ ์„ ๊ฐ€์ง„ ํ† ํฐ์„ ๋จผ์ € ๋„ฃ๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰ํ•˜๋ฉด ๋นˆ์นธ์„ ๋‘๊ฐœ๋„ ๋šซ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์–˜๊ธฐ์ด๋‹ค.

 

๋…ผ๋ฌธ์—์„œ๋Š” ๊ฐ Task๋งˆ๋‹ค ํŒจํ„ด์„ ์–ด๋–ป๊ฒŒ ํ•˜๋ฉด ์ข‹์„์ง€ ์จ๋†จ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ์•ฝ๊ฐ„์˜ ๋‹จ์ ์ด ๋‚˜์˜จ๋‹ค.

์ •๊ทœํ™”๋œ ๊ณต์‹ ์—†์ด ์ €์ž๊ฐ€ ์ผ์ผ์ด ์ˆ˜๊ธฐ๋กœ ํ•ด๋ณธ ํ˜•์‹์ด๋‹ค.

 

์–ด์จŒ๋“  ์ด๋Ÿฐ ๋ฐฉ์‹์œผ๋กœ Roberta๋ฅผ ํ•™์Šตํ•ด๋ณด๋‹ˆ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์ด ์—†์„ ๋•Œ, iPET ๋ฐฉ์‹์ด ๋‹ค๋ฅธ ๋น„์ง€๋„ํ•™์Šต ๋ฐ ์ง€๋„ํ•™์Šต๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋†’๋‹ค๊ณ  ํ•œ๋‹ค.

 

์—ฌ๊ธฐ ๊ฒฐ๊ณผ๊ฐ€ ์ค‘์š”ํ•œ๋ฐ, ALBERT๋ฅผ ์‚ฌ์šฉํ•˜์˜€์„๋•Œ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” 223M ์ด์ง€๋งŒ, ๊ทธ์—๋ฐ˜ํ•ด GPT๋Š” 175,000M์ด๋‹ค.

๊ทผ๋ฐ ํ‰๊ท ์„ ๋ณด๋ฉด ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํ›จ์”ฌ ํฐ GPT๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋” ๋†’๊ฒŒ ๋‚˜์˜จ๋‹ค.

๋”ฐ๋ผ์„œ ๋…ผ๋ฌธ์—์„œ ์ฃผ์žฅํ•˜๋Š” ๊ฑด, ์ž‘์€ LM์ด๋ผ๋„ ๋…ผ๋ฌธ์—์„œ ์ œ์‹œํ•œ ๊ฒƒ ์ฒ˜๋Ÿผ ๊ทธ ๋ชจ๋ธ์˜ ์ง€์‹์„ ํ™œ์šฉํ•˜์—ฌ ์˜ˆ์ธกํ•˜๋ฉด ๋” ์ž˜๋‚˜์˜ฌ ์ˆ˜๋„ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

728x90
๋ฐ˜์‘ํ˜•
Liky