카운트 기반의 단어 ν‘œν˜„μ΄λž€ μ–΄λ–€ κΈ€μ˜ λ¬Έλ§₯ μ•ˆμ— 단어가 λ™μ‹œμ— λ“±μž₯ν•˜λŠ” 횟수λ₯Ό μ„ΈλŠ” λ°©λ²•μž…λ‹ˆλ‹€.

λ™μ‹œ λ“±μž₯ 횟수λ₯Ό ν•˜λ‚˜μ˜ ν–‰λ ¬λ‘œ λ‚˜νƒ€λ‚Έ λ’€, κ·Έ 행렬을 μˆ˜μΉ˜ν™”ν•΄μ„œ 단어 λ²‘ν„°λ‘œ λ§Œλ“œλŠ” 방법을 μ‚¬μš©ν•˜λŠ” λ°©μ‹μž…λ‹ˆλ‹€.

ν…μŠ€νŠΈλ₯Ό μœ„μ™€ 같은 λ°©μ‹μœΌλ‘œ μˆ˜μΉ˜ν™”ν•˜λ©΄, 톡계적인 μ ‘κ·Ό 방법을 톡해

μ—¬λŸ¬ λ¬Έμ„œλ‘œ 이루어진 ν…μŠ€νŠΈ 데이터가 μžˆμ„ λ•Œ μ–΄λ–€ 단어가 νŠΉμ • λ¬Έμ„œλ‚΄μ—μ„œ μ–Όλ§ˆλ‚˜ μ€‘μš”ν•œ 것인지λ₯Ό λ‚˜νƒ€λ‚΄κ±°λ‚˜,

λ¬Έμ„œμ˜ 핡심어 μΆ”μΆœ,

검색 μ—”μ§„μ—μ„œ 검색 결과의 μˆœμœ„ κ²°μ •,

λ¬Έμ„œλ“€ κ°„μ˜ μœ μ‚¬λ„

λ“±μ˜ μš©λ„λ‘œ μ‚¬μš©κ°€λŠ₯ν•©λ‹ˆλ‹€.

 

각 단어에 1번, 2번, 3번 λ“±κ³Ό 같은 숫자λ₯Ό 맡핑(mapping)ν•˜μ—¬ λΆ€μ—¬ν•œλ‹€λ©΄ μ΄λŠ” κ΅­μ†Œ ν‘œν˜„ 방법에 ν•΄λ‹Ήλ©λ‹ˆλ‹€.

반면, λΆ„μ‚° ν‘œν˜„ λ°©λ²•μ˜ ν•΄λ‹Ή 단어λ₯Ό ν‘œν˜„ν•˜κΈ° μœ„ν•΄ μ£Όλ³€ 단어λ₯Ό μ°Έκ³ ν•©λ‹ˆλ‹€.

puppy(강아지)λΌλŠ” 단어 κ·Όμ²˜μ—λŠ” 주둜 cute(κ·€μ—¬μš΄), lovely(μ‚¬λž‘μŠ€λŸ¬μš΄)μ΄λΌλŠ” 단어가 자주 λ“±μž₯ν•˜λ―€λ‘œ,

puppyλΌλŠ” λ‹¨μ–΄λŠ” cute, lovelyν•œ λŠλ‚Œμ΄λ‹€λ‘œ 단어λ₯Ό μ •μ˜ν•©λ‹ˆλ‹€.

이 두 λ°©λ²•μ˜ μ°¨μ΄λŠ”

κ΅­μ†Œ ν‘œν˜„ 방법은 λ‹¨μ–΄μ˜ 의미, λ‰˜μ•™μŠ€λ₯Ό ν‘œν˜„ν•  수 μ—†μ§€λ§Œ,

λΆ„μ‚° ν‘œν˜„ 방법은 λ‹¨μ–΄μ˜ λ‰˜μ•™μŠ€λ₯Ό ν‘œν˜„ν•  수 있게 λ©λ‹ˆλ‹€.

 

λ‹¨μ–΄λ“€μ˜ μˆœμ„œλŠ” μ „ν˜€ κ³ λ €ν•˜μ§€ μ•Šκ³ , λ‹¨μ–΄λ“€μ˜ μΆœν˜„ λΉˆλ„(frequency)μ—λ§Œ μ§‘μ€‘ν•˜λŠ” ν…μŠ€νŠΈ λ°μ΄ν„°μ˜ μˆ˜μΉ˜ν™” ν‘œν˜„ λ°©λ²•μž…λ‹ˆλ‹€.

Bag of Words μ§μ—­ν•˜λ©΄ "λ‹¨μ–΄λ“€μ˜ κ°€λ°©"

κ°–κ³ μžˆλŠ” μ–΄λ–€ ν…μŠ€νŠΈ λ¬Έμ„œμ— μžˆλŠ” 단어듀을 가방에 λ„£μŠ΅λ‹ˆλ‹€.

κ·Έν›„ 가방을 흔듀어 단어듀을 μ„žμŠ΅λ‹ˆλ‹€.

λ§Œμ•½ ν•΄λ‹Ή λ¬Έμ„œ λ‚΄μ—μ„œ νŠΉμ • 단어가 N번 λ“±μž₯ν–ˆλ‹€λ©΄,

이 κ°€λ°©μ—λŠ” κ·Έ νŠΉμ • 단어가 N개 있게 λ©λ‹ˆλ‹€.

가방을 ν”λ“€μ–΄μ„œ 단어λ₯Ό μ„žμ—ˆκΈ° λ•Œλ¬Έμ— 더이상 λ‹¨μ–΄μ˜ μˆœμ„œλŠ” μ€‘μš”ν•˜μ§€ μ•Šμ•„μ§‘λ‹ˆλ‹€.

 

μ–΄λ–€ 단어가 μ–Όλ§ˆλ‚˜ 자주 λ“±μž₯ν–ˆλŠ”μ§€λ₯Ό κΈ°μ€€μœΌλ‘œ, λ¬Έμ„œκ°€ μ–΄λ–€ μ„±κ²©μ˜ λ¬Έμ„œμΈμ§€ νŒλ‹¨ν•˜λŠ” μž‘μ—…μ— μ“°μž…λ‹ˆλ‹€.

즉, λΆ„λ₯˜ λ¬Έμ œλ‚˜ μ—¬λŸ¬ λ¬Έμ„œ κ°„μ˜ μœ μ‚¬λ„λ₯Ό κ΅¬ν•˜λŠ” λ¬Έμ œμ— 주둜 μ“°μž…λ‹ˆλ‹€.

ex) 달리기, 체λ ₯, κ·Όλ ₯κ³Ό 같은 단어가 자주 λ“±μž₯ν•˜λ©΄ > 체윑 κ΄€λ ¨ λ¬Έμ„œ

λ―ΈλΆ„, 방정식, 뢀등식 단어 자주 λ“±μž₯ > μˆ˜ν•™ κ΄€λ ¨ λ¬Έμ„œλ‘œ λΆ„λ₯˜ κ°€λŠ₯

 

λ¬Έμ„œ 단어 ν–‰λ ¬ (Document-Term Matrix, DTM)

λ‹€μˆ˜μ˜ λ¬Έμ„œμ—μ„œ λ“±μž₯ν•˜λŠ” 각 λ‹¨μ–΄λ“€μ˜ λΉˆλ„λ₯Ό ν–‰λ ¬λ‘œ ν‘œν˜„ν•œ 것 μž…λ‹ˆλ‹€.

BoW ν‘œν˜„μ„ λ‹€μˆ˜μ˜ λ¬Έμ„œμ— λŒ€ν•΄μ„œ ν–‰λ ¬λ‘œ ν‘œν˜„ν•˜κ³  λΆ€λ₯΄λŠ” μš©μ–΄μž…λ‹ˆλ‹€.

각 λ¬Έμ„œμ—μ„œ λ“±μž₯ν•œ λ‹¨μ–΄μ˜ λΉˆλ„λ₯Ό ν–‰λ ¬μ˜ κ°’μœΌλ‘œ ν‘œκΈ°ν•˜μ—¬

λ¬Έμ„œλ“€μ„ μ„œλ‘œ 비ꡐ할 수 μžˆλ„λ‘ μˆ˜μΉ˜ν™” ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

단점

1.ν¬μ†Œ ν‘œν˜„

전체 μ½”νΌμŠ€κ°€ λ°©λŒ€ν•œ 데이터라면 λ¬Έμ„œ λ²‘ν„°μ˜ 차원은 수만 μ΄μƒμ˜ 차원을 κ°€μ§‘λ‹ˆλ‹€.

λ˜ν•œ λ§Žμ€ λ¬Έμ„œ 벑터가 λŒ€λΆ€λΆ„μ˜ 값이 0을 κ°€μ§ˆμˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€.

λ”°λΌμ„œ ν¬μ†Œ λ²‘ν„°λŠ” λ§Žμ€ μ–‘μ˜ μ €μž₯ 곡간과 높은 계산 λ³΅μž‘λ„λ₯Ό μš”κ΅¬ν•©λ‹ˆλ‹€.

2.λ‹¨μˆœ λΉˆλ„ 수 기반 μ ‘κ·Ό

λΆˆμš©μ–΄μΈ theλŠ” μ–΄λ–€ λ¬Έμ„œμ΄λ“  자주 λ“±μž₯ν•  μˆ˜λ°–μ— μ—†μŠ΅λ‹ˆλ‹€.

λ¬Έμ„œ1, λ¬Έμ„œ2,λ¬Έμ„œ3μ—μ„œ λ™μΌν•˜κ²Œ theκ°€ λΉˆλ„μˆ˜ λ†’λ‹€κ³ ν•΄μ„œ μœ μ‚¬ν•œ λ¬Έμ„œλ“€μ΄λΌκ³  νŒλ‹¨ν•˜λ©΄ μ•ˆλ©λ‹ˆλ‹€.

 

DTM 내에 μžˆλŠ” 각 단어에 λŒ€ν•œ μ€‘μš”λ„ 계산할 수 μžˆμŠ΅λ‹ˆλ‹€.

기쑴의 DTM보닀 λ§Žμ€ 정보λ₯Ό κ³ λ €ν•˜μ—¬ λ¬Έμ„œλ“€μ„ 비ꡐ할 수 μžˆμŠ΅λ‹ˆλ‹€.

주둜 λ¬Έμ„œμ˜ μœ μ‚¬λ„ κ΅¬ν•˜λŠ” μž‘μ—…

검색 μ‹œμŠ€ν…œμ—μ„œ 검색 결과의 μ€‘μš”λ„λ₯Ό μ •ν•˜λŠ” μž‘μ—…

λ¬Έμ„œ λ‚΄μ—μ„œ νŠΉμ • λ‹¨μ–΄μ˜ μ€‘μš”λ„λ₯Ό κ΅¬ν•˜λŠ” μž‘μ—… 등에 쓰일 μˆ˜μžˆμŠ΅λ‹ˆλ‹€.

정보 검색과 ν…μŠ€νŠΈ λ§ˆμ΄λ‹μ—μ„œ μ΄μš©ν•˜λŠ” κ°€μ€‘μΉ˜λ‘œ, μ—¬λŸ¬ λ¬Έμ„œλ‘œ 이루어진 λ¬Έμ„œκ΅°μ΄ μžˆμ„ λ•Œ

μ–΄λ–€ 단어가 νŠΉμ • λ¬Έμ„œ λ‚΄μ—μ„œ μ–Όλ§ˆλ‚˜ μ€‘μš”ν•œ 것인지λ₯Ό λ‚˜νƒ€λ‚΄λŠ” 톡계적 μˆ˜μΉ˜μž…λ‹ˆλ‹€.

728x90
λ°˜μ‘ν˜•
Liky