๋ฐ์งํํ์ด๋
- ํฌ์ํํ๋ ๋จ์ด๋ฅผ ์์์ ๊ธธ์ด์ ์ค์ ๋ฒกํฐ๋ก ํํํ ๊ฒ
- ์ด ๊ณผ์ ์ ์๋ ์๋ฒ ๋ฉ์ด๋ผ ํ๋ฉฐ, ๋ฐ์ง ํํ๋ ๊ฒฐ๊ณผ๋ฅผ ์๋ฒ ๋ฉ ๋ฐฑํฐ๋ผ ํจ.
- ์์ฐ์ด์ฒ๋ฆฌ(Natural Language Processing)๋ถ์ผ์์์ ์๋ฒ ๋ฉ์ด๋
- ์ฌ๋์ด ์ฐ๋ ์์ฐ์ด > ๊ธฐ๊ณ๊ฐ ์ดํดํ ์ ์๋ ์ซ์ํํ์ vector๋ก ๋ฐ๊พธ๋ ๊ณผ์ ๋ฐ ๊ฒฐ๊ณผ
์๋ฒ ๋ฉ์ ์ญํ
- ๋จ์ด/๋ฌธ์ฅ ๊ฐ ๊ด๋ จ๋ ๊ณ์ฐ
- ๋ํ์ ์๋ฒ ๋ฉ ๊ธฐ๋ฒ : Word2Vec
- ์ปดํจํฐ๊ฐ ๊ณ์ฐํ๊ธฐ ์ฝ๋๋ก ๋จ์ด๋ฅผ ์ ์ฒด ๋จ์ด๋ค๊ฐ์ ๊ด๊ณ์ ๋ง์ถฐ ํด๋น ๋จ์ด์ ํน์ฑ์ ๊ฐ๋ ๋ฒกํฐ๋ก ๋ฐ๊พธ์ด ๋จ์ด๋ค ์ฌ์ด์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ๋ ์ผ์ด ๊ฐ๋ฅํด์ง.
- ์๋ฒ ๋ฉ์ ํ๋ฉด ๋ฒกํฐ ๊ณต๊ฐ์ ๊ธฐํํ์ ์ผ๋ก ๋ํ๋ธ ์๊ฐํ ๊ฐ๋ฅ
- ์๋ฏธ์ /๋ฌธ๋ฒ์ ์ ๋ณด ํจ์ถ
- ์ฌ์น์ฐ์ฐ ๊ฐ๋ฅ.
- ๋ฒกํฐ๊ฐ ๋ง์ /๋บ์ ๋ฑ์ ํตํด ๋จ์ด๋ค ์ฌ์ด์ ์๋ฏธ์ , ๋ฌธ๋ฒ์ ๊ด๊ณ ๋์ถ ๊ฐ๋ฅ
- ๋จ์ด ์๋ฒ ๋ฉ์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๋จ์ด ์ ์ถ ํ๊ฐ(word analogy test)๋ผ๊ณ ๋ถ๋ฆ
- ์ ์ดํ์ต(Transfer Learning)
- ํ์ง ์ข์ ์๋ฒ ๋ฉ์ ๋ชจํ์ ์ฑ๋ฅ๊ณผ ์๋ ด์๋๊ฐ ๋นจ๋ผ์ง. ์ด๋ฌํ ํ์ง ์ข์ ์๋ฒ ๋ฉ์ ๋ค๋ฅธ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ ๋ ฅ๊ฐ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ์ ์ ์ดํ์ต์ด๋ผํจ.
์๋ฒ ๋ฉ ๊ธฐ๋ฒ ๋ณํ
- ํต๊ณ ๊ธฐ๋ฐ ๊ธฐ๋ฒ
- ์ ์ฌ์๋ฏธ๋ถ์(Latent Semantic Analysis)
- ๊ณ์ฐ๋๊ณผ ๋ฉ๋ชจ๋ฆฌ ์์ ๋ญ๋น ๋ฐฉ์ง
- Neural Network ๊ธฐ๋ฐ ๊ธฐ๋ฒ
์๋ฒ ๋ฉ ์์ค ๋ณํ
- ๋จ์ด ์์ค ์๋ฒ ๋ฉ ๊ธฐ๋ฒ
- ๊ฐ๊ฐ์ ๋ฒกํฐ์ ํด๋น ๋จ์ด์ ๋ฌธ๋งฅ์ ์๋ฏธ ํจ์ถ
- ๋จ์ : ๋จ์ด์ ํํ๊ฐ ๋์ผํ๋ฉด ๋์ผ๋จ์ด๋ก ์ธ์, ๋ชจ๋ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํด๋น ๋จ์ด ๋ฒกํฐ์ ํฌ์ํ์ฌ ๋์์ด์์ด๋ฅผ ๋ถ๊ฐํ๊ธฐ ์ด๋ ค์
- NPLM, Word2Vec, FastText, GloVe ๋ฑ
- ๋ฌธ์ฅ ์์ค ์๋ฒ ๋ฉ ๊ธฐ๋ฒ
- ELMo(Embedding from Language Models) ์ดํ ์ฃผ๋ชฉ
- ๊ฐ๋ณ ๋จ์ด๊ฐ ์๋ ๋จ์ด Sequence ์ ์ฒด์ ๋ฌธ๋งฅ์ ์๋ฏธ ํจ์ถ
- ๋จ์ด ์๋ฒ ๋ฉ ๊ธฐ๋ฒ๋ณด๋ค ์ ์ดํ์ต ํจ๊ณผ๊ฐ ์ข์
- ๋์์ด์์ด๋ ๋ถ๋ฆฌํด์ ์ดํด ๊ฐ๋ฅํด์ง
Rule based -> End to End -> Pre-training/fine tuning
- ์ด์ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ ๋๋ถ๋ถ์ ์ฌ๋์ด Feature๋ฅผ ์ง์ ๋ฝ์์.
- 2000๋ ๋ ์ค๋ฐ ์ดํ NLP ๋ถ์ผ์์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ์ฃผ๋ชฉ๋ฐ๊ธฐ ์์ํ์ฌ Feature๋ฅผ ์ง์ ๋ฝ์ง ์์๋ ๋๊ฒ ๋์์. ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ด์ฃผ๋ฉด ์ฌ๋์ ๊ฐ์ ์์ด ๋ชจ๋ธ ์ค์ค๋ก ์ฒ์๋ถํฐ ๋๊น์ง ์ดํดํ๋ End-to-End Model ๊ธฐ๋ฒ์ ์ฌ์ฉํจ. ๋ํ์ ์ผ๋ก๋ ๊ธฐ๊ณ๋ฒ์ญ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ Sequence-to-Sequence ๋ชจ๋ธ์ด ์์. 2018๋ ELMo ๋ชจ๋ธ์ด ์ ์๋ ์ดํ NLP ๋ชจ๋ธ์ pre-training๊ณผ fine tuning ๋ฐฉ์์ผ๋ก ๋ฐ์ ํ๊ณ ์์.
- ๋๊ท๋ชจ Corpus๋ก ์๋ฒ ๋ฉ์ ๋ง๋ ๋ค.(Pre-train) ์ด ์๋ฒ ๋ฉ์๋ Corpus์ ์๋ฏธ์ , ๋ฌธ๋ฒ์ ๋งฅ๋ฝ์ด ํฌํจ๋์ด ์์. ์ดํ ์๋ฒ ๋ฉ์ ์ ๋ ฅ์ผ๋ก ํ๋ ์๋ก์ด ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ง๋ค์ด ํ๊ณ ์ถ์ ๊ตฌ์ฒด์ ๋ฌธ์ ์ ๋ง๋ ์๊ท๋ชจ ๋ฐ์ดํฐ์ ๋ง๊ฒ ์๋ฒ ๋ฉ์ ํฌํจํ ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ ๋ฐ์ดํธํ๋ค.(fine tuning) ELMo, GPT, BERT๋ฑ์ด ์ด ๋ฐฉ์์ ํด๋น๋๋ค.
- ํ๊ณ ์ถ์ ์์ฐ์ด ์ฒ๋ฆฌ์ ๊ตฌ์ฒด์ ๋ฌธ์ ๋ค(์์ : ํ์ฌ ํ๋ณ(Part-Of-Speech tagging), ๊ฐ์ฒด๋ช ์ธ์(Named Entity Recognition), ์๋ฏธ์ญ ๋ถ์(Semantic Role Labeling))์ ๋ค์ด ์คํธ๋ฆผ ํ์คํฌ(DownStream task)๋ผ๊ณ ํจ. ๋ค์ด์คํธ๋ฆผ์ ์์ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ผ๋ ๋ป์ ์ ์คํธ๋ฆผ ํ ์คํฌ(UpStream task)๋ ๋จ์ด/๋ฌธ์ฅ ์๋ฒ ๋ฉ์ Pre-trainํ๋ ์์ ์ด ํด๋น๋๋ค.
์๋ฒ ๋ฉ ์ข ๋ฅ
- ํ๋ ฌ ๋ถํด
- Corpus(๋ง๋ญ์น) ์ ๋ณด๊ฐ ๋ค์ด ์๋ ์๋ ํ๋ ฌ์ Decomposition(๋ถํด)์ ํตํด ์๋ฒ ๋ฉํ๋ ๊ธฐ๋ฒ. Decomposition ์ดํ์ ๋ ์ค ํ๋์ ํ๋ ฌ๋ง ์ฌ์ฉํ๊ฑฐ๋ ๋์ sumํ๊ฑฐ๋ concatenateํ๋ ๋ฐฉ์์ผ๋ก ์๋ฒ ๋ฉ์ ํจ.
- ex) GloVe, Swivel ๋ฑ
- ์์ธก ๊ธฐ๋ฐ
- ์ด๋ค ๋จ์ด ์ฃผ๋ณ์ ํน์ ๋จ์ด๊ฐ ๋ํ๋ ์ง ์์ธกํ๊ฑฐ๋, ์ด์ ๋จ์ด๋ค์ด ์ฃผ์ด์ก์ ๋ ๋ค์ ๋จ์ด๊ฐ ๋ฌด์์ผ์ง ์์ธกํ๊ฑฐ๋, ๋ฌธ์ฅ ๋ด ์ผ๋ถ ๋จ์ด๋ฅผ ์ง์ฐ๊ณ ํด๋น ๋จ์ด๊ฐ ๋ฌด์์ผ์ง ๋ง์ถ๋ ๊ณผ์ ์์ ํ์ตํ๋ ๋ฐฉ๋ฒ
- Neural Network๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ด ์ํ๋ค.
- ex) Word2Vec, FastText, BERT, ELMo, GPT ๋ฑ
- ํ ํฝ ๊ธฐ๋ฐ
- ์ฃผ์ด์ง ๋ฌธ์์ ์ ์ฌ๋ ์ฃผ์ ๋ฅผ ์ถ๋ก ํ๋ ๋ฐฉ์์ผ๋ก ์๋ฒ ๋ฉ์ ์ํํ๋ ๊ธฐ๋ฒ์ด๋ฉฐ, ๋ํ์ ์ผ๋ก ์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น(LDA)๊ฐ ์์.
- LDA ๊ฐ์ ๋ชจ๋ธ์ ํ์ต์ด ์๋ฃ๋๋ฉด ๊ฐ ๋ฌธ์๊ฐ ์ด๋ค ์ฃผ์ ๋ถํฌ๋ฅผ ๊ฐ๋์ง ํ๋ฅ ๋ฒกํฐ ํํ๋ก ๋ฐํํ๊ธฐ ๋๋ฌธ์ ์๋ฒ ๋ฉ ๊ธฐ๋ฒ์ ์ผ์ข ์ผ๋ก ์ดํดํ ์ ์๋ค.
NLP ์ฉ์ด
- Corpus
- ๋ง๋ญ์น
- ์๋ฒ ๋ฉ ํ์ต์ด๋ผ๋ ํน์ ํ ๋ชฉ์ ์ ๊ฐ์ง๊ณ ์์งํ ํ๋ณธ(ํน์ ๋ชฉ์ ์ ๊ฐ์ง ์ธ์ด์ ํ๋ณธ).
- ๋ถ์์ ์ฉ์ด์ฑ์ ์ํด ํํ์ ๋ถ์์ด ํฌํจ๋๊ธฐ๋ ํจ.
- ์ธ์ดํ ์ฐ๊ตฌ์ ์ฐ์ด๋ ํ๋ฅ /ํต๊ณ์ ์๋ฃ์ด๋ฉฐ ๋์์ ๋ฅ๋ฌ๋์๋ ์ฐ์.
- Collection
- ์ปฌ๋ ์
- Corpus์ ์ํ ๊ฐ๊ฐ์ ์งํฉ๋ค
- ์ํค๋ฐฑ๊ณผ์ ๋ค์ด๋ฒ ๋ฆฌ๋ทฐ๋ฅผ ๋ง๋ญ์น๋ก ์ฐ๋ฉด ์ด๋ค ๊ฐ๊ฐ์ด ์ปฌ๋ ์ ์ด ๋.
- Sentence(๋ฌธ์ฅ)
- Document(๋ฌธ์)
- ๋ฌธ์ฅ ์งํฉ
- Token
- ๋ฌธ์ฅ์ ์ฌ๋ฌ ๊ฐ์ ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋.
- ํ ํฐ์ ๋จ์ด(Word), ํํ์(Morpheme), ์๋ธ์๋(subword)๋ผ๊ณ ํจ.
- ๋ฌธ์ฅ์ ํ ํฐ ์ํ์ค๋ก ๋ถ์ํ๋ ๊ณผ์ ์ Tokenize ๋ผ๊ณ ํจ.
- Vocabulary(์ดํ์งํฉ)
- Corpus์ ์๋ ๋ชจ๋ Document๋ฅผ Sentence๋ก ๋๋๊ณ , ์ฌ๊ธฐ์ Tokenize๋ฅผ ์คํํ๊ณ ์ค๋ณต์ ์ ๊ฑฐํ Token๋ค์ ์งํฉ์.
- Vocabulary์ ์๋ Token์ ๋ฏธ๋ฑ๋ก ๋จ์ด(Unknown Word)๋ผ๊ณ ํจ.
- TF-IDF
- TF โ Term Frequency ํน์ ๋จ์ด๊ฐ ๊ธ ์์์ ๋์ค๋ ํ์
- IDF โ Inverse Document Frequency ํน์ ๋จ์ด๊ฐ ์ฌ๋ฌ ๊ธ์ ์ผ๋ง๋ ์์ฃผ ๋์ค๋์ง ์๋ ค์ฃผ๋ ์งํ์ Inverse ๊ฐ
- ๋ค๋ฅธ ๊ธ์์ ์ง์๋๋ช ์ฌ๋ ์กฐ์ฌ๊ฐ ๋ง์ด ๋์ค๋ฏ๋ก IDF๋ ๊ฐ์ด ๋ฐ๋๋ก ๋ฎ์ ๊ฐ์ ๊ฐ๊ฒ ๋๋ค. ์ด๊ฒ์ด TF-IDF์ ์ฅ์ ์ผ๋ก ์๋ฏธ๊ฐ ์๋ ์กฐ์ฌ๋ ์ง์๋๋ช ์ฌ๋ฅผ ์ ์ธํ ๋จ์ด๋ค์ ์๋ฒ ๋ฉ ๊ฐ์ ์ป์ ์ ์๋ ๊ฒ์ด๋ค. TF-IDF๋ TF์ IDF๋ฅผ ๊ณฑํ ๊ฐ์ผ๋ก ๋ค๋ฅธ ๊ธ์์ ์์ฃผ ๋์ค์ง ์๊ณ ํด๋น ๋ฌธ์์ ๋ง์ด ๋ฑ์ฅํ ์๋ก ๋ ๋์ ๊ฐ์ ๊ฐ๊ฒ ๋๋ค.
- ๋ถํฌ ๊ฐ์ค(Distributed hypothesis)
- ๋ถํฌ ๊ฐ์ค์ ๊ฐ์ ๋ฌธ๋งฅ์ ๋จ์ด, ์ฆ ๋น์ทํ ์์น์ ๋์ค๋ ๋จ์ด๋ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ค ๋ผ๋ ์๋ฏธ์ด๋ค. ๋ฐ๋ผ์ ์ด๋ค ๊ธ์ ๋น์ทํ ์์น์ ์กด์ฌํ๋ ๋จ์ด๋ ๋จ์ด ๊ฐ์ ์ ์ฌ๋๋ฅผ ๋๊ฒ ์ธก์ ํ ๊ฒ์ด๋ค.
- Word2Vec
- Word2Vec์ CBow์ Skip-gram์ด ์๋ค. CBow๋ ์ด๋ค ๋จ์ด๋ฅผ ๋ฌธ๋งฅ ์์ ์ฃผ๋ณ ๋จ์ด๋ค์ ํตํด ์์ธกํ๋ ๋ฐฉ๋ฒ์ด๊ณ Skip-gram์ ๋ฐ๋๋ก ์ด๋ค ๋จ์ด๋ฅผ ๊ฐ์ง๊ณ ํน์ ๋ฌธ๋งฅ ์์ ์ฃผ๋ณ ๋จ์ด๋ค์ ์์ธกํ๋ ๊ณผ์ ์ด๋ค.
728x90
๋ฐ์ํ