Count-Base Word Representation

2022. 3. 22. 15:24Artificial_Intelligence/Natural Language Processing

카운트 기반의 단어 표현이란 어떤 글의 문맥 안에 단어가 동시에 등장하는 횟수를 세는 방법입니다.

동시 등장 횟수를 하나의 행렬로 나타낸 뒤, 그 행렬을 수치화해서 단어 벡터로 만드는 방법을 사용하는 방식입니다.

텍스트를 위와 같은 방식으로 수치화하면, 통계적인 접근 방법을 통해

여러 문서로 이루어진 텍스트 데이터가 있을 때 어떤 단어가 특정 문서내에서 얼마나 중요한 것인지를 나타내거나,

문서의 핵심어 추출,

검색 엔진에서 검색 결과의 순위 결정,

문서들 간의 유사도

등의 용도로 사용가능합니다.

 

각 단어에 1, 2, 3번 등과 같은 숫자를 맵핑(mapping)하여 부여한다면 이는 국소 표현 방법에 해당됩니다.

반면, 분산 표현 방법의 해당 단어를 표현하기 위해 주변 단어를 참고합니다.

puppy(강아지)라는 단어 근처에는 주로 cute(귀여운), lovely(사랑스러운)이라는 단어가 자주 등장하므로,

puppy라는 단어는 cute, lovely한 느낌이다로 단어를 정의합니다.

이 두 방법의 차이는

국소 표현 방법은 단어의 의미, 뉘앙스를 표현할 수 없지만,

분산 표현 방법은 단어의 뉘앙스를 표현할 수 있게 됩니다.

 

단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법입니다.

Bag of Words 직역하면 "단어들의 가방"

갖고있는 어떤 텍스트 문서에 있는 단어들을 가방에 넣습니다.

그후 가방을 흔들어 단어들을 섞습니다.

만약 해당 문서 내에서 특정 단어가 N번 등장했다면,

이 가방에는 그 특정 단어가 N개 있게 됩니다.

가방을 흔들어서 단어를 섞었기 때문에 더이상 단어의 순서는 중요하지 않아집니다.

 

어떤 단어가 얼마나 자주 등장했는지를 기준으로, 문서가 어떤 성격의 문서인지 판단하는 작업에 쓰입니다.

, 분류 문제나 여러 문서 간의 유사도를 구하는 문제에 주로 쓰입니다.

ex) 달리기, 체력, 근력과 같은 단어가 자주 등장하면 > 체육 관련 문서

미분, 방정식, 부등식 단어 자주 등장 > 수학 관련 문서로 분류 가능

 

문서 단어 행렬 (Document-Term Matrix, DTM)

다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것 입니다.

BoW 표현을 다수의 문서에 대해서 행렬로 표현하고 부르는 용어입니다.

각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표기하여

문서들을 서로 비교할 수 있도록 수치화 할 수 있습니다.

 

단점

1.희소 표현

전체 코퍼스가 방대한 데이터라면 문서 벡터의 차원은 수만 이상의 차원을 가집니다.

또한 많은 문서 벡터가 대부분의 값이 0을 가질수도 있습니다.

따라서 희소 벡터는 많은 양의 저장 공간과 높은 계산 복잡도를 요구합니다.

2.단순 빈도 수 기반 접근

불용어인 the는 어떤 문서이든 자주 등장할 수밖에 없습니다.

문서1, 문서2,문서3에서 동일하게 the가 빈도수 높다고해서 유사한 문서들이라고 판단하면 안됩니다.

 

DTM 내에 있는 각 단어에 대한 중요도 계산할 수 있습니다.

기존의 DTM보다 많은 정보를 고려하여 문서들을 비교할 수 있습니다.

주로 문서의 유사도 구하는 작업

검색 시스템에서 검색 결과의 중요도를 정하는 작업

문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수있습니다.

정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때

어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치입니다.

728x90