Efficient Estimation of Word Representations in Vector Space
Mikolov, Tomas, et al. "Efficient estimation of word representations in vector space." arXiv preprint arXiv:1301.3781 (2013).
Abstract (Eng.)
We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best performing techniques based on different types of neural networks. We observe large improvements in accuracy at much lower computational cost, i.e. it takes less than a day to learn high quality word vectors from a 1.6 billion words data set. Furthermore, we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.
Abstract (Kor.)
우리는 매우 큰 데이터 세트에서 단어의 연속 벡터 표현을 계산하기 위한 두 가지 새로운 모델 아키텍처를 제안합니다. 이러한 표현의 품질은 단어 유사성 작업에서 측정되며, 결과는 다른 유형의 신경망을 기반으로 한 이전의 최고 성능 기술과 비교됩니다. 훨씬 낮은 계산 비용으로 정확도가 크게 향상되었습니다. 즉, 16억 단어 데이터 세트에서 고품질 단어 벡터를 학습하는 데 하루도 걸리지 않습니다. 또한 이러한 벡터가 구문 및 의미론적 단어 유사성을 측정하기 위한 테스트 세트에서 최첨단 성능을 제공한다는 것을 보여줍니다
Negative Sampling
“I like natural language processing” 이라는 예시 문장이 있을 때
→ {natural | I}, {natural | like}, {natural | language}, {natural | processing} 이렇게 표현하는 것이 positive 샘플링
→ {natural | pretty}, {natural | for}, {natural | better}, {natural | days} 이렇게 표현하는 것이 네거티브 샘플링.
타깃 단어의 주변에 등장하지 않은 단어 쌍을 네거티브 샘플이라고 함.
CBOW와 Skip-Gram을 학습시키기 위한 방법은 크게 두가지-Negative Sampling과 Hierarchical Softmax-이다. Negative Sampling은 주어진 단어 corpus 데이터외에 임의로 만든 틀린(negative) corpus 데이터를 만들어서 이를 이용해서 학습하는 방법이다. Hierarchical Softmax 단어들의 트리 구조를 정의하고 이를 이용해서 학습하는 방법이다.
Hierarchical softmax
계층적 소프트맥스
시간복잡도 log_2V로 줄어들음
https://everyday-log.tistory.com/entry/단어-임베딩-2-Iteration-based-methods
https://pongdangstory.tistory.com/433