์์ฐ์ด ๋ ผ๋ฌธ์ ํ๋ฆ๋
์ด์ ๊น์ง ์์ฐ์ด์ฒ๋ฆฌ๋ ๊ธฐ๊ณํ์ต์์ RNN์ ๋ฑ์ฅ์ผ๋ก์ธํด ์ ์ฐจ ๋ฅ๋ฌ๋์ผ๋ก ๋ค์ด๊ฐ๊ฒ ๋์์.
RNN ์ํ์ ๊ฒฝ๋ง์์ vanishing gradient ๋ฌธ์ ๊ฐ ์์ด์, ๊ธฐ์ตshell์ ์ถ๊ฐํ LSTM์ด ๋์์ผ๋ฉฐ, ๊ทธ๋ค๋ก GRU๋ ์ฐ๊ณ ํ๋ค๊ฐ ํธ๋์คํฌ๋จธ๊ฐ ๋์จ ๋ค๋ก๋ถํฐ ์๊ฐ ์ด์ ๊น์ง์ ์ฑ๋ฅ์ ๋ค ์ด๊ฒจ๋ฒ๋ ค์ ์์ฐ์ด์ฒ๋ฆฌ์ ํ๋ฆ์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ฐ๊ตฌ๊ฐ ๋ง์์ก์.
- Attention Is All You Need
- Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
- ์ดํ ์ ๊ธฐ๋ฒ ์๊ฐ → ํธ๋์คํฌ๋จธ ๋ชจ๋ธ On.
- NLP ๋ถ์ผ์์ ์ ์ค์ ์์
- https://arxiv.org/pdf/1706.03762.pdf
์ดํ ์ ๊ธฐ๋ฒ์ด ๋ฐํ๋๋ฉด์ NLP ๋ถ์ผ์์๋ ๊ธฐ์กด RNN, CNN ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ด ์๋, ์ดํ ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ ๋ํ ์ฐ๊ตฌ๊ฐ ์์๋จ. ๊ทธ๋ ๊ฒ ๋์จ ๊ฒ์ด BERT์ GPT.
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
- ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋๋ฅผ ํ์ฉํ ๋ชจ๋ธ → MASK ์์์ ํ์ตํ ์ ์ดํ์ต์ธ์ด๋ชจ๋ธ
- ์๋ฐฉํฅ ํ์ต์ด๋ผ๋ ์ ์์ NLU์ ๋์ด๋จ
- https://arxiv.org/pdf/1810.04805.pdf
- Improving language understanding by generative pre-training
- Radford, Alec, et al. "Improving language understanding by generative pre-training." (2018).
- GPT-1 ๋ชจ๋ธ ์๊ฐ
- ๋๋ถ๋ถ ๋ฅ๋ฌ๋ ํ์ต์ labeled๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ง๋ํ์ต์ ํ์ฉํ๋๋ฐ, ๋ง์ ์์ ๋ถ์กฑ์ผ๋ก ๋ง์ ๋ฒ์์ ๋ํ ํ์ฉ์ ์ ์ฝ์ด ์๊น. ๋ฐ๋ผ์ ์๋ณธ ๊ทธ๋๋ก์ ํ ์คํธ๋ฅผ ํ์ฉํ์ฌ unsupervised learning(๋น์ง๋ ํ์ต)์ ํตํด ํ์ตํ ์ ์๋ ๋ชจ๋ธ์ด ํ์ํจ.
- a) ์ด๋ค optimization objective๊ฐ ์ ์ดํ์ต์ ํจ๊ณผ์ ์ธ representation์ ๋ฐฐ์ฐ๋ ๋ฐ ํจ๊ณผ์ ์ธ์ง ์ ์ ์๋ค.
- b) ๋ชจ๋ธ์์ ํ์ต๋ ํํ(representation)์ ๋ค๋ฅธ NLP task๋ก transferํ๋๋ฐ ๊ฐ์ฅ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ด ์ ํด์ง์ง ์์๋ค.
- ์ด๋ฌํ ์๋ณธ ํ ์คํธ๋ฅผ ์ฌ์ฉํ ํ์ต์ ๋ํ ๋ฌธ์ ์ , pretraining์์ ๊ณ ๋ คํด์ผํ ์ด๋ ค์ด ๋ฌธ์ ๋ค์ ๋ค๋ฃจ๋ฉด์ ๋จ๋ฐฉํฅ ํ์ต ๊ธฐ๋ฐ์ GPT ๋ชจ๋ธ์ด ๋์ด
- https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
์ด๋๊น์ง๋งํด๋ BERT > GPT-1 ์ด์์.
์๋ก ์ฌ์ ํ์ต ๊ธฐ๋ฒ ๋ค๋ฅด๊ณ , BERT๊ฐ ๋ค์ํ Task์ ๋ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๋ฅผ ๋์.
GPT๋ ์ธ์ด ์์ฑ์ ๋ ์ ๋ฆฌํ๊ณ , LSTM๋์ GPT๋ Transformer ๊ตฌ์กฐ ํ์ฉํด์ ์ธ์ด ๋ชจ๋ธ๋งํจ.
- ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
- Lan, Zhenzhong, et al. "Albert: A lite bert for self-supervised learning of language representations." arXiv preprint arXiv:1909.11942 (2019).
- https://arxiv.org/pdf/1909.11942.pdf
- RoBERTa: A Robustly Optimized BERT Pretraining Approach
- Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
- Language Models are Unsupervised Multitask Learners
- Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog
1.8 (2019) - GPT-2 ๋ชจ๋ธ ์๊ฐ
- https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdfD
- Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog
์ด ๋ ผ๋ฌธ๋ค์ด ๋์ค๋ฉด์ ์์ฐ์ด์ฒ๋ฆฌ ์ฑ๋ฅ ์ฌ๋ฆฌ๋ ค๋ฉด = ๊ธฐ์กด๋ณด๋ค ๋๋๋๋ ๋ฐ์ดํฐ์ ๋ง์ด ๊ฐ์ง๊ณ ์์ ์ฌ์ ํ์ต์ ์งํํ์๊ฐ ์ ์ฆ๋์์.
์ด๋ฌ๋ค๊ฐ ๋ชจ๋ธ์ด ์ ์ ์ปค์ง๊ณ Fine-tuning์ ํ๊ณ(๋ฌธ์ ์ )์ ๋๋ผ๊ณ ์ฐ๊ตฌ ํ๋ฆ์ด ์ ์ฐจ In-Context Learning, Prompt-based Learning ๋ฐฉํฅ์ผ๋ก ํ๋ฌ๊ฐ.
In-Context Learning > ๊ฐ๋จํ ์ค๋ช + ์์ (zero-shot, one-shot, few-shot)
Prompt Learning > PLM(Pre Trained Model)์ ์ ๋ ฅ๋ฐฉ์ ๊ทธ๋๋ก ์ฌ์ฉ (ex. Classifer Head(X), Only <MASK> )
- Language Models are Few-Shot Learners
- Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
- ํธ๋์คํฌ๋จธ์ ๋์ฝ๋ ํ์ฉ → GPT-3 ๋ชจ๋ธ ์๊ฐ (ํฌ๊ธฐ ์์ฒญ์ปค์ง. ์ฝ 1750์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ผ๊ณ ํ๋๊ฐ..)
- https://arxiv.org/pdf/2005.14165.pdf
- Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
- Schick, Timo, and Hinrich Schütze. "Exploiting cloze questions for few shot text classification and natural language inference." arXiv preprint arXiv:2001.07676 (2020).
- PET ์๊ฐ → PVP์ด์ฉํ Cloze ์คํ์ผ์ Fewshot ํ์ต
- https://arxiv.org/pdf/2001.07676.pdf
- It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
- Schick, Timo, and Hinrich Schütze. "It's not just size that matters: Small language models are also few-shot learners." arXiv preprint arXiv:2009.07118 (2020).
- ๋ฉํฐ PVP → ๋ฉํฐ PET
- https://arxiv.org/pdf/2009.07118.pdf
์ฐ๊ตฌ๋ ์ ์ฐจ Meta-learning ์์ ์๋ In-context Learning(Zero-shot, One-shot, Few-shot)๊ณผ Prompt Learning์ผ๋ก ์งํ๋์๊ณ , ๊ธฐ์กด Fine-tuning๊ธฐ๋ฒ๊ณผ ๋ง์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆผ. ๊ทผ๋ฐ ํฐ ํ๊ณ์ ์ด ์๋๋ฐ, Handcraft ๋ฐฉ์์ด๋ผ๋ ์ ์. ์กฐ๊ธ๋ง Template์ ๋ฐ๊ฟ์ค๋ ์ฑ๋ฅ์ด ํํ ๋ฐ๋๋ ๋จ์ ์ด ์์. ๋ฐ๋ผ์ 21๋ ๋ ๊ธฐ์ค, Prompt Template์ ์๋์ผ๋ก ์ฐพ์์ฃผ๋ ์ฐ๊ตฌ์ ์ง์ค๋์ด ์์.
- GPT Understands, Too
- Liu, Xiao, et al. "GPT understands, too." arXiv preprint arXiv:2103.10385 (2021).
- P-Tuning์ ์ ์
https://arxiv.org/pdf/2103.10385.pdf
๐ฌ P-tuning์ด๋
์ฐ์์ ์ธ ๊ณต๊ฐ์์ ์๋์ ์ผ๋ก prompt๋ฅผ ๊ฒ์ํ๋ ๋ฐฉ๋ฒ
NI-LSTM + ReLU activated two-layer MLP
์ง๊ธ๊น์ง Prompt Learning ๋ฐฉ์์ ์ฐ๊ตฌํ๋ฉด์ ์ฑ๋ฅ์ด ๋ง์ด ์ข์์ก์ง๋ง ๊ทธ๋๋ ๋ฌธ์ ์ ์ด ์์.Sequence lableling task ๋ฑ์์๋ ์ฑ๋ฅ์ด ๋ฎ์.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์จ๊ฒ P-tuning Ver.
๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ 10B ์ดํ๋ฉด, Fine-tuning ๊ธฐ๋ฒ๋ณด๋ค Prompt Tuning ๋ฐฉ์์ด ๋ ์ฑ๋ฅ์ด ๋ฎ์.
- P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
- P-tuning Ver.2
- ๋ชจ๋ธ scale์ด๋ NLU Task์ ๊ด๋ จ์์ด ์ต์ ํ๋ Prompt ๊ตฌ์กฐ ์ ์
- Masked Language Modeling ๋ฟ๋ง ์๋๋ผ Classification์์ ์ ์ฉ ๊ฐ๋ฅํด์ง
- Deep Prompt Tuning ๊ตฌ์กฐ ์ฑํ
- ๋ชจ๋ ๋ ์ด์ด์ Continuous prompt ์ ์ฉ
- Fine-tuning ๋๋น 0.1% ~ 3%์ ํ์ต ํ๋ผ๋ฏธํฐ๋ก ๋ฉ๋ชจ๋ฆฌ, ๋น์ฉ์ ์ฝํ๊ณ ์ฑ๋ฅ ๋น์ทํ๊ฒ ๋ง๋ฌ
- Parameter-Efficient Prompt Tuning Makes Generalized and Calibrated Neural Text Retrievers
- P-tuning Ver.3?
- ๋๋ฌ์ ์ ๋์จ ๋ฐ๋๋ฐ๋ํ ๋ ผ๋ฌธ์ธ๋ฐ P-tuning์ ๋ํด์ ๋ ์ค๋ช ํ๊ณ ์ ๊ทธ๋ ์ด๋ ํ๋ฏํ๋ค.
- ์์ง ๋ ผ๋ฌธ ์ฝ์ง๋ ์์์.