๋ฐ€์ง‘ํ‘œํ˜„์ด๋ž€

  • ํฌ์†Œํ‘œํ˜„๋œ ๋‹จ์–ด๋ฅผ ์ž„์˜์˜ ๊ธธ์ด์˜ ์‹ค์ˆ˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ
  • ์ด ๊ณผ์ •์„ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์ด๋ผ ํ•˜๋ฉฐ, ๋ฐ€์ง‘ ํ‘œํ˜„๋œ ๊ฒฐ๊ณผ๋ฅผ ์ž„๋ฒ ๋”ฉ ๋ฐฑํ„ฐ๋ผ ํ•จ.
  • ์ž์—ฐ์–ด์ฒ˜๋ฆฌ(Natural Language Processing)๋ถ„์•ผ์—์„œ์˜ ์ž„๋ฒ ๋”ฉ์ด๋ž€
  • ์‚ฌ๋žŒ์ด ์“ฐ๋Š” ์ž์—ฐ์–ด > ๊ธฐ๊ณ„๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ˆซ์žํ˜•ํƒœ์˜ vector๋กœ ๋ฐ”๊พธ๋Š” ๊ณผ์ • ๋ฐ ๊ฒฐ๊ณผ

์ž„๋ฒ ๋”ฉ์˜ ์—ญํ• 

  • ๋‹จ์–ด/๋ฌธ์žฅ ๊ฐ„ ๊ด€๋ จ๋„ ๊ณ„์‚ฐ
    • ๋Œ€ํ‘œ์  ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ• : Word2Vec
    • ์ปดํ“จํ„ฐ๊ฐ€ ๊ณ„์‚ฐํ•˜๊ธฐ ์‰ฝ๋„๋ก ๋‹จ์–ด๋ฅผ ์ „์ฒด ๋‹จ์–ด๋“ค๊ฐ„์˜ ๊ด€๊ณ„์— ๋งž์ถฐ ํ•ด๋‹น ๋‹จ์–ด์˜ ํŠน์„ฑ์„ ๊ฐ–๋Š” ๋ฒกํ„ฐ๋กœ ๋ฐ”๊พธ์–ด ๋‹จ์–ด๋“ค ์‚ฌ์ด์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์ผ์ด ๊ฐ€๋Šฅํ•ด์ง.
    • ์ž„๋ฒ ๋”ฉ์„ ํ•˜๋ฉด ๋ฒกํ„ฐ ๊ณต๊ฐ„์„ ๊ธฐํ•˜ํ•™์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ์‹œ๊ฐํ™” ๊ฐ€๋Šฅ
  • ์˜๋ฏธ์ /๋ฌธ๋ฒ•์  ์ •๋ณด ํ•จ์ถ•
    • ์‚ฌ์น™์—ฐ์‚ฐ ๊ฐ€๋Šฅ.
    • ๋ฒกํ„ฐ๊ฐ„ ๋ง์…ˆ/๋บ„์…ˆ ๋“ฑ์„ ํ†ตํ•ด ๋‹จ์–ด๋“ค ์‚ฌ์ด์˜ ์˜๋ฏธ์ , ๋ฌธ๋ฒ•์  ๊ด€๊ณ„ ๋„์ถœ ๊ฐ€๋Šฅ
    • ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹จ์–ด ์œ ์ถ” ํ‰๊ฐ€(word analogy test)๋ผ๊ณ  ๋ถ€๋ฆ„
  • ์ „์ดํ•™์Šต(Transfer Learning)
    • ํ’ˆ์งˆ ์ข‹์€ ์ž„๋ฒ ๋”ฉ์€ ๋ชจํ˜•์˜ ์„ฑ๋Šฅ๊ณผ ์ˆ˜๋ ด์†๋„๊ฐ€ ๋นจ๋ผ์ง. ์ด๋Ÿฌํ•œ ํ’ˆ์งˆ ์ข‹์€ ์ž„๋ฒ ๋”ฉ์„ ๋‹ค๋ฅธ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ์ „์ดํ•™์Šต์ด๋ผํ•จ.

์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ• ๋ณ€ํ™”

  • ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•
    • ์ž ์žฌ์˜๋ฏธ๋ถ„์„(Latent Semantic Analysis)
    • ๊ณ„์‚ฐ๋Ÿ‰๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์ž์› ๋‚ญ๋น„ ๋ฐฉ์ง€
  • Neural Network ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•

์ž„๋ฒ ๋”ฉ ์ˆ˜์ค€ ๋ณ€ํ™”

  • ๋‹จ์–ด ์ˆ˜์ค€ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•
    • ๊ฐ๊ฐ์˜ ๋ฒกํ„ฐ์— ํ•ด๋‹น ๋‹จ์–ด์˜ ๋ฌธ๋งฅ์  ์˜๋ฏธ ํ•จ์ถ•
    • ๋‹จ์  : ๋‹จ์–ด์˜ ํ˜•ํƒœ๊ฐ€ ๋™์ผํ•˜๋ฉด ๋™์ผ๋‹จ์–ด๋กœ ์ธ์‹, ๋ชจ๋“  ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํ•ด๋‹น ๋‹จ์–ด ๋ฒกํ„ฐ์— ํˆฌ์˜ํ•˜์—ฌ ๋™์Œ์ด์˜์–ด๋ฅผ ๋ถ„๊ฐ„ํ•˜๊ธฐ ์–ด๋ ค์›€
    • NPLM, Word2Vec, FastText, GloVe ๋“ฑ
  • ๋ฌธ์žฅ ์ˆ˜์ค€ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•
    • ELMo(Embedding from Language Models) ์ดํ›„ ์ฃผ๋ชฉ
    • ๊ฐœ๋ณ„ ๋‹จ์–ด๊ฐ€ ์•„๋‹Œ ๋‹จ์–ด Sequence ์ „์ฒด์˜ ๋ฌธ๋งฅ์  ์˜๋ฏธ ํ•จ์ถ•
    • ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๋ณด๋‹ค ์ „์ดํ•™์Šต ํšจ๊ณผ๊ฐ€ ์ข‹์Œ
    • ๋™์Œ์ด์˜์–ด๋„ ๋ถ„๋ฆฌํ•ด์„œ ์ดํ•ด ๊ฐ€๋Šฅํ•ด์ง

Rule based -> End to End -> Pre-training/fine tuning

  • ์ด์ „ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ ๋Œ€๋ถ€๋ถ„์€ ์‚ฌ๋žŒ์ด Feature๋ฅผ ์ง์ ‘ ๋ฝ‘์•˜์Œ.
  • 2000๋…„๋Œ€ ์ค‘๋ฐ˜ ์ดํ›„ NLP ๋ถ„์•ผ์—์„œ๋„ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด ์ฃผ๋ชฉ๋ฐ›๊ธฐ ์‹œ์ž‘ํ•˜์—ฌ Feature๋ฅผ ์ง์ ‘ ๋ฝ‘์ง€ ์•Š์•„๋„ ๋˜๊ฒŒ ๋˜์—ˆ์Œ. ๋ฐ์ดํ„ฐ๋ฅผ ๋„ฃ์–ด์ฃผ๋ฉด ์‚ฌ๋žŒ์˜ ๊ฐœ์ž…์—†์ด ๋ชจ๋ธ ์Šค์Šค๋กœ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋๊นŒ์ง€ ์ดํ•ดํ•˜๋Š” End-to-End Model ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•จ. ๋Œ€ํ‘œ์ ์œผ๋กœ๋Š” ๊ธฐ๊ณ„๋ฒˆ์—ญ์— ๋„๋ฆฌ ์‚ฌ์šฉ๋๋˜ Sequence-to-Sequence ๋ชจ๋ธ์ด ์žˆ์Œ. 2018๋…„ ELMo ๋ชจ๋ธ์ด ์ œ์•ˆ๋œ ์ดํ›„ NLP ๋ชจ๋ธ์€ pre-training๊ณผ fine tuning ๋ฐฉ์‹์œผ๋กœ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ์Œ.
  • ๋Œ€๊ทœ๋ชจ Corpus๋กœ ์ž„๋ฒ ๋”ฉ์„ ๋งŒ๋“ ๋‹ค.(Pre-train) ์ด ์ž„๋ฒ ๋”ฉ์—๋Š” Corpus์˜ ์˜๋ฏธ์ , ๋ฌธ๋ฒ•์  ๋งฅ๋ฝ์ด ํฌํ•จ๋˜์–ด ์žˆ์Œ. ์ดํ›„ ์ž„๋ฒ ๋”ฉ์„ ์ž…๋ ฅ์œผ๋กœ ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด ํ’€๊ณ  ์‹ถ์€ ๊ตฌ์ฒด์  ๋ฌธ์ œ์— ๋งž๋Š” ์†Œ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์— ๋งž๊ฒŒ ์ž„๋ฒ ๋”ฉ์„ ํฌํ•จํ•œ ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.(fine tuning) ELMo, GPT, BERT๋“ฑ์ด ์ด ๋ฐฉ์‹์— ํ•ด๋‹น๋œ๋‹ค.
  • ํ’€๊ณ  ์‹ถ์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์˜ ๊ตฌ์ฒด์  ๋ฌธ์ œ๋“ค(์˜ˆ์‹œ : ํ’ˆ์‚ฌ ํŒ๋ณ„(Part-Of-Speech tagging), ๊ฐœ์ฒด๋ช… ์ธ์‹(Named Entity Recognition), ์˜๋ฏธ์—ญ ๋ถ„์„(Semantic Role Labeling))์„ ๋‹ค์šด ์ŠคํŠธ๋ฆผ ํƒœ์Šคํฌ(DownStream task)๋ผ๊ณ  ํ•จ. ๋‹ค์šด์ŠคํŠธ๋ฆผ์— ์•ž์„œ ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๊ณผ์ œ๋ผ๋Š” ๋œป์˜ ์—…์ŠคํŠธ๋ฆผ ํ…Œ์Šคํฌ(UpStream task)๋Š” ๋‹จ์–ด/๋ฌธ์žฅ ์ž„๋ฒ ๋”ฉ์„ Pre-trainํ•˜๋Š” ์ž‘์—…์ด ํ•ด๋‹น๋œ๋‹ค.

์ž„๋ฒ ๋”ฉ ์ข…๋ฅ˜

  • ํ–‰๋ ฌ ๋ถ„ํ•ด
    • Corpus(๋ง๋ญ‰์น˜) ์ •๋ณด๊ฐ€ ๋“ค์–ด ์žˆ๋Š” ์›๋ž˜ ํ–‰๋ ฌ์„ Decomposition(๋ถ„ํ•ด)์„ ํ†ตํ•ด ์ž„๋ฒ ๋”ฉํ•˜๋Š” ๊ธฐ๋ฒ•. Decomposition ์ดํ›„์—” ๋‘˜ ์ค‘ ํ•˜๋‚˜์˜ ํ–‰๋ ฌ๋งŒ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ๋‘˜์„ sumํ•˜๊ฑฐ๋‚˜ concatenateํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž„๋ฒ ๋”ฉ์„ ํ•จ.
    • ex) GloVe, Swivel ๋“ฑ
  • ์˜ˆ์ธก ๊ธฐ๋ฐ˜
    • ์–ด๋–ค ๋‹จ์–ด ์ฃผ๋ณ€์— ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋‚˜ํƒ€๋‚ ์ง€ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜, ์ด์ „ ๋‹จ์–ด๋“ค์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๋‹ค์Œ ๋‹จ์–ด๊ฐ€ ๋ฌด์—‡์ผ์ง€ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜, ๋ฌธ์žฅ ๋‚ด ์ผ๋ถ€ ๋‹จ์–ด๋ฅผ ์ง€์šฐ๊ณ  ํ•ด๋‹น ๋‹จ์–ด๊ฐ€ ๋ฌด์—‡์ผ์ง€ ๋งž์ถ”๋Š” ๊ณผ์ •์—์„œ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•
    • Neural Network๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•๋“ค์ด ์†ํ•œ๋‹ค.
    • ex) Word2Vec, FastText, BERT, ELMo, GPT ๋“ฑ
  • ํ† ํ”ฝ ๊ธฐ๋ฐ˜
    • ์ฃผ์–ด์ง„ ๋ฌธ์„œ์— ์ž ์žฌ๋œ ์ฃผ์ œ๋ฅผ ์ถ”๋ก ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž„๋ฒ ๋”ฉ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ธฐ๋ฒ•์ด๋ฉฐ, ๋Œ€ํ‘œ์ ์œผ๋กœ ์ž ์žฌ ๋””๋ฆฌํด๋ ˆ ํ• ๋‹น(LDA)๊ฐ€ ์žˆ์Œ.
    • LDA ๊ฐ™์€ ๋ชจ๋ธ์€ ํ•™์Šต์ด ์™„๋ฃŒ๋˜๋ฉด ๊ฐ ๋ฌธ์„œ๊ฐ€ ์–ด๋–ค ์ฃผ์ œ ๋ถ„ํฌ๋ฅผ ๊ฐ–๋Š”์ง€ ํ™•๋ฅ  ๋ฒกํ„ฐ ํ˜•ํƒœ๋กœ ๋ฐ˜ํ™˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•์˜ ์ผ์ข…์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

NLP ์šฉ์–ด

  • Corpus
    • ๋ง๋ญ‰์น˜
    • ์ž„๋ฒ ๋”ฉ ํ•™์Šต์ด๋ผ๋Š” ํŠน์ •ํ•œ ๋ชฉ์ ์„ ๊ฐ€์ง€๊ณ  ์ˆ˜์ง‘ํ•œ ํ‘œ๋ณธ(ํŠน์ • ๋ชฉ์ ์„ ๊ฐ€์ง„ ์–ธ์–ด์˜ ํ‘œ๋ณธ).
    • ๋ถ„์„์˜ ์šฉ์ด์„ฑ์„ ์œ„ํ•ด ํ˜•ํƒœ์†Œ ๋ถ„์„์ด ํฌํ•จ๋˜๊ธฐ๋„ ํ•จ.
    • ์–ธ์–ดํ•™ ์—ฐ๊ตฌ์— ์“ฐ์ด๋Š” ํ™•๋ฅ /ํ†ต๊ณ„์  ์ž๋ฃŒ์ด๋ฉฐ ๋™์‹œ์— ๋”ฅ๋Ÿฌ๋‹์—๋„ ์“ฐ์ž„.
  • Collection
    • ์ปฌ๋ ‰์…˜
    • Corpus์— ์†ํ•œ ๊ฐ๊ฐ์˜ ์ง‘ํ•ฉ๋“ค
    • ์œ„ํ‚ค๋ฐฑ๊ณผ์™€ ๋„ค์ด๋ฒ„ ๋ฆฌ๋ทฐ๋ฅผ ๋ง๋ญ‰์น˜๋กœ ์“ฐ๋ฉด ์ด๋“ค ๊ฐ๊ฐ์ด ์ปฌ๋ ‰์…˜์ด ๋Œ.
  • Sentence(๋ฌธ์žฅ)
  • Document(๋ฌธ์„œ)
    • ๋ฌธ์žฅ ์ง‘ํ•ฉ
  • Token
    • ๋ฌธ์žฅ์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํ† ํฐ์œผ๋กœ ๊ตฌ์„ฑ๋Œ.
    • ํ† ํฐ์€ ๋‹จ์–ด(Word), ํ˜•ํƒœ์†Œ(Morpheme), ์„œ๋ธŒ์›Œ๋“œ(subword)๋ผ๊ณ  ํ•จ.
    • ๋ฌธ์žฅ์„ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ถ„์„ํ•˜๋Š” ๊ณผ์ •์„ Tokenize ๋ผ๊ณ  ํ•จ.
  • Vocabulary(์–ดํœ˜์ง‘ํ•ฉ)
    • Corpus์— ์žˆ๋Š” ๋ชจ๋“  Document๋ฅผ Sentence๋กœ ๋‚˜๋ˆ„๊ณ , ์—ฌ๊ธฐ์— Tokenize๋ฅผ ์‹คํ–‰ํ•˜๊ณ  ์ค‘๋ณต์„ ์ œ๊ฑฐํ•œ Token๋“ค์˜ ์ง‘ํ•ฉ์ž„.
    • Vocabulary์— ์—†๋Š” Token์€ ๋ฏธ๋“ฑ๋ก ๋‹จ์–ด(Unknown Word)๋ผ๊ณ  ํ•จ.
  • TF-IDF
    • TF โ†’ Term Frequency ํŠน์ • ๋‹จ์–ด๊ฐ€ ๊ธ€ ์•ˆ์—์„œ ๋‚˜์˜ค๋Š” ํšŸ์ˆ˜
    • IDF โ†’ Inverse Document Frequency ํŠน์ • ๋‹จ์–ด๊ฐ€ ์—ฌ๋Ÿฌ ๊ธ€์— ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ๋‚˜์˜ค๋Š”์ง€ ์•Œ๋ ค์ฃผ๋Š” ์ง€ํ‘œ์˜ Inverse ๊ฐ’
    • ๋‹ค๋ฅธ ๊ธ€์—์„œ ์ง€์‹œ๋Œ€๋ช…์‚ฌ๋‚˜ ์กฐ์‚ฌ๊ฐ€ ๋งŽ์ด ๋‚˜์˜ค๋ฏ€๋กœ IDF๋Š” ๊ฐ’์ด ๋ฐ˜๋Œ€๋กœ ๋‚ฎ์€ ๊ฐ’์„ ๊ฐ–๊ฒŒ ๋œ๋‹ค. ์ด๊ฒƒ์ด TF-IDF์˜ ์žฅ์ ์œผ๋กœ ์˜๋ฏธ๊ฐ€ ์—†๋Š” ์กฐ์‚ฌ๋‚˜ ์ง€์‹œ๋Œ€๋ช…์‚ฌ๋ฅผ ์ œ์™ธํ•œ ๋‹จ์–ด๋“ค์˜ ์ž„๋ฒ ๋”ฉ ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค. TF-IDF๋Š” TF์™€ IDF๋ฅผ ๊ณฑํ•œ ๊ฐ’์œผ๋กœ ๋‹ค๋ฅธ ๊ธ€์—์„œ ์ž์ฃผ ๋‚˜์˜ค์ง€ ์•Š๊ณ  ํ•ด๋‹น ๋ฌธ์„œ์— ๋งŽ์ด ๋“ฑ์žฅํ• ์ˆ˜๋ก ๋” ๋†’์€ ๊ฐ’์„ ๊ฐ–๊ฒŒ ๋œ๋‹ค.
  • ๋ถ„ํฌ ๊ฐ€์„ค(Distributed hypothesis)
    • ๋ถ„ํฌ ๊ฐ€์„ค์€ ๊ฐ™์€ ๋ฌธ๋งฅ์˜ ๋‹จ์–ด, ์ฆ‰ ๋น„์Šทํ•œ ์œ„์น˜์— ๋‚˜์˜ค๋Š” ๋‹จ์–ด๋Š” ๋น„์Šทํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง„๋‹ค ๋ผ๋Š” ์˜๋ฏธ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์–ด๋–ค ๊ธ€์˜ ๋น„์Šทํ•œ ์œ„์น˜์— ์กด์žฌํ•˜๋Š” ๋‹จ์–ด๋Š” ๋‹จ์–ด ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ๋†’๊ฒŒ ์ธก์ •ํ•  ๊ฒƒ์ด๋‹ค.
  • Word2Vec
    • Word2Vec์€ CBow์™€ Skip-gram์ด ์žˆ๋‹ค. CBow๋Š” ์–ด๋–ค ๋‹จ์–ด๋ฅผ ๋ฌธ๋งฅ ์•ˆ์˜ ์ฃผ๋ณ€ ๋‹จ์–ด๋“ค์„ ํ†ตํ•ด ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๊ณ  Skip-gram์€ ๋ฐ˜๋Œ€๋กœ ์–ด๋–ค ๋‹จ์–ด๋ฅผ ๊ฐ€์ง€๊ณ  ํŠน์ • ๋ฌธ๋งฅ ์•ˆ์˜ ์ฃผ๋ณ€ ๋‹จ์–ด๋“ค์„ ์˜ˆ์ธกํ•˜๋Š” ๊ณผ์ •์ด๋‹ค.

728x90
๋ฐ˜์‘ํ˜•
Liky