자연어처리(6)
-
Studying natural language models from the beginning
자연어 모델을 이해했는지 확인 + 공부를 위한 필기 노트입니다. 1. 단순 신경망 2. RNN 3. LSTM 4. GRU 5. Seq2Seq (Sequence to Sequnece) 6. Attention Mechanism 7. 교사 학습 (Teacher Forcing) 8. Beam Search Algorithm 9. Transformer (Encoder, Decoder) 10. BERT 11. RoBERTa 12. ALBERT 13. Embedding / Encoding 14. Knowledge Distillation 15. Self-Explaning 16. Sentence BERT
2022.07.26 -
How to use "Hugging Face"(허깅페이스) for NLP Task
허깅페이스는 Tensorflow Hub와 유사한 기능을 제공하는 곳이다. 트랜스포머를 기반으로 하는 다양한 모델들이 존재하며, 각각의 Task에 맞게 미세조정을 진행한 모델들 또한 구축되어있다. 또한, 데이터를 각 모델에 맞게 전처리하기 편리하도록 Tokenizer도 전부 구현되어있다. 그 뿐만 아니라, 학습을 위해 필요한 데이터셋도 저장되어 있어, 사용자는 그저 가져온 뒤 사용하기만 하면 된다. 즉, 허깅페이스를 사용하면 기존 학습 스크립트에서 반복되는 모든 부분을 일일이 따로 구현하지 않아도 편리하게 사용할 수 있으며, 데이터 구축부터 전처리, 모델 학습 및 결과 도출까지 매우 편리하고 효율적으로 코딩할 수 있다는 장점이 있다. 허깅페이스는 다양한 트랜스포머 모델과 학습 스크립트를 제공하는 모듈로, ..
2022.04.16 -
Count-Base Word Representation
카운트 기반의 단어 표현이란 어떤 글의 문맥 안에 단어가 동시에 등장하는 횟수를 세는 방법입니다. 동시 등장 횟수를 하나의 행렬로 나타낸 뒤, 그 행렬을 수치화해서 단어 벡터로 만드는 방법을 사용하는 방식입니다. 텍스트를 위와 같은 방식으로 수치화하면, 통계적인 접근 방법을 통해 여러 문서로 이루어진 텍스트 데이터가 있을 때 어떤 단어가 특정 문서내에서 얼마나 중요한 것인지를 나타내거나, 문서의 핵심어 추출, 검색 엔진에서 검색 결과의 순위 결정, 문서들 간의 유사도 등의 용도로 사용가능합니다. 각 단어에 1번, 2번, 3번 등과 같은 숫자를 맵핑(mapping)하여 부여한다면 이는 국소 표현 방법에 해당됩니다. 반면, 분산 표현 방법의 해당 단어를 표현하기 위해 주변 단어를 참고합니다. puppy(강아..
2022.03.22 -
New NLP Trands
Timkey, W. and van Schijndel, M. (2021) → Rogue(작은 몇개의 차원) 개념 제안. → rogue가 모델을 좌우하니, 이를 제어하는 postprocessing 테크닉 제안 Paik, C., Aroca-Ouellette, S., Roncone, A., and Kann, K. (2021) → CoDa(사람이 인지 가능한 색을 구분하기 위한 데이터) 구성 → PLM의 한계 지적. (병백하게 딱 이거다! 라고 말하는 사람x. 텍스트만으로는 이러한 데이터를 인지하는 것에 부족함 발견. 따라서 다양한 형태의 데이터를 언어 모델에 적용하는 방법 탐구 Kalyan, A., Kumar, A., Chandrasekaran, A., Sabharwal, A., and Clark, P. (20..
2022.02.28 -
[논문리뷰]A Neural Probabilistic Language Model
A Neural Probabilistic Language Model Bengio, Yoshua, Réjean Ducharme, and Pascal Vincent. "A neural probabilistic language model." Advances in Neural Information Processing Systems 13 (2000). NPLM은 단어를 임베딩하여 벡터로 바꾸는 과정에서 신경망 기반의 기법을 제시하여 향후 Word2Vec으로 가는 기반이 되었다고한다. 간단하게 학습 데이터에 존재하지 않는 n-gram이 포함된 문장이 나타날 확률을 0으로 매긴다 n을 5이상으로 설정하기 어렵기 때문에 문장의 장기 의존성을 포착해내기 어렵다. 단어/문장 간 유사도는 고려 하지 않는다. neural n..
2022.02.20 -
(NLP)Embedding
밀집표현이란희소표현된 단어를 임의의 길이의 실수 벡터로 표현한 것이 과정을 워드 임베딩이라 하며, 밀집 표현된 결과를 임베딩 백터라 함.자연어처리(Natural Language Processing)분야에서의 임베딩이란사람이 쓰는 자연어 > 기계가 이해할 수 있는 숫자형태의 vector로 바꾸는 과정 및 결과 임베딩의 역할단어/문장 간 관련도 계산대표적 임베딩 기법 : Word2Vec컴퓨터가 계산하기 쉽도록 단어를 전체 단어들간의 관계에 맞춰 해당 단어의 특성을 갖는 벡터로 바꾸어 단어들 사이의 유사도를 계산하는 일이 가능해짐.임베딩을 하면 벡터 공간을 기하학적으로 나타낸 시각화 가능의미적/문법적 정보 함축사칙연산 가능.벡터간 덧셈/뺄셈 등을 통해 단어들 사이의 의미적, 문법적 관계 도출 가능단어 임베딩을..
2022.01.04