nlp(17)
-
[논문리뷰] GPT Understands, Too
Liu, Xiao, et al. "GPT understands, too." arXiv preprint arXiv:2103.10385 (2021). NLU Task에서 약함을 보여주었던 GPT가 BERT 계열을 이긴 P-Tuning에 대한 논문입니다. 이를 이해하기 위해서 그동안의 자연어 이해 연구 흐름에 대해서도 설명합니다.
2022.10.25 -
To be uploaded Papers list
Liu, Xiao, et al. "P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks." Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) . 2022. P-tuning Ver.2에 관한 논문이고, 모델 scale이나 NLU Task에 관련없이 최적화된 Prompt 구조 제시 Masked Language Modeling 뿐만 아니라 Classification에서 적용 가능해짐 Deep Prompt Tuning 구조 채택 모든 레이어에 Continuous promp..
2022.09.24 -
Recent Natural Language Paper Flows
자연어 논문의 흐름도 이전까지 자연어처리는 기계학습에서 RNN의 등장으로인해 점차 딥러닝으로 들어가게 되었음. RNN 순환신경망에서 vanishing gradient 문제가 있어서, 기억shell을 추가한 LSTM이 나왔으며, 그뒤로 GRU도 쓰고 하다가 트랜스포머가 나온 뒤로부터 얘가 이전까지의 성능을 다 이겨버려서 자연어처리의 흐름은 트랜스포머 모델을 기반으로 한 연구가 많아졌음. Attention Is All You Need Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017). 어텐션 기법 소개 → 트랜스포머 모델 On. NLP 분야에서 전설의 시작 ..
2022.09.22 -
[논문리뷰]Are Prompt-Based Models Clueless?
Kavumba, Pride, Ryo Takahashi, and Yasuke Oda. "Are Prompt-based Models Clueless?." arXiv preprint arXiv:2205.09295 (2022). 2022년도 5월에 ACL에서 나온 논문입니다. 주제는 Prompt-based Models도 Superficial Cues를 사용하는지, 사용한다면 악용하여 일반화 성능이 떨어지게 만들지는 않는지 분석하여 확인하는 논문입니다. (참고자료) DiceLab SangHun Im
2022.08.29 -
[DACON] 데이콘 쇼핑몰 리뷰 평점 분류 경진대회
자연어 추론쪽을 연구하면서, 진행중인 실험이 막혀서 잠깐 환기시킬겸 자연어 대회를 찾아봤었다. 캐글에서 진행중인 XNLI 대회, 한국 DACON에서 진행하는 평점 분류 대회 두가지를 찾아서 이를 진행해 보았다. 일단 이 대회를 찾았을 당시에 마감이 D-1이라 다른 기법을 사용하지는 못했고, 빠르게 제출하기 위한 베이스모델만 사용하여 대회에 참가하였다. 대회 참여 인원은 549명 정도였고, 1등의 점수는 0.71312 였다. 그리고 하루 투자해서 제출한 내 점수는 0.68888로, 1등과의 정확도 차이가 0.02432(약 2.4%) 차이였다. 베이직 대회인데 탑10도 못해서 현타가 오긴 했지만, 그래도 빠르게 제출할 수 있다는 거에 의의를 두었다. 처음에는 일단 한국어 커스텀 토크나이저를 만들어서 사용하기..
2022.08.09 -
Studying natural language models from the beginning
자연어 모델을 이해했는지 확인 + 공부를 위한 필기 노트입니다. 1. 단순 신경망 2. RNN 3. LSTM 4. GRU 5. Seq2Seq (Sequence to Sequnece) 6. Attention Mechanism 7. 교사 학습 (Teacher Forcing) 8. Beam Search Algorithm 9. Transformer (Encoder, Decoder) 10. BERT 11. RoBERTa 12. ALBERT 13. Embedding / Encoding 14. Knowledge Distillation 15. Self-Explaning 16. Sentence BERT
2022.07.26 -
[논문리뷰] It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
Schick, Timo, and Hinrich Schütze. "Exploiting Cloze-Questions for Few-Shot Text Classification and Natural Language Inference." Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. 2021. Schick, Timo, and Hinrich Schütze. "It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners." Proceedings of the 20..
2022.07.11 -
How to use "Hugging Face"(허깅페이스) for NLP Task
허깅페이스는 Tensorflow Hub와 유사한 기능을 제공하는 곳이다. 트랜스포머를 기반으로 하는 다양한 모델들이 존재하며, 각각의 Task에 맞게 미세조정을 진행한 모델들 또한 구축되어있다. 또한, 데이터를 각 모델에 맞게 전처리하기 편리하도록 Tokenizer도 전부 구현되어있다. 그 뿐만 아니라, 학습을 위해 필요한 데이터셋도 저장되어 있어, 사용자는 그저 가져온 뒤 사용하기만 하면 된다. 즉, 허깅페이스를 사용하면 기존 학습 스크립트에서 반복되는 모든 부분을 일일이 따로 구현하지 않아도 편리하게 사용할 수 있으며, 데이터 구축부터 전처리, 모델 학습 및 결과 도출까지 매우 편리하고 효율적으로 코딩할 수 있다는 장점이 있다. 허깅페이스는 다양한 트랜스포머 모델과 학습 스크립트를 제공하는 모듈로, ..
2022.04.16 -
Count-Base Word Representation
카운트 기반의 단어 표현이란 어떤 글의 문맥 안에 단어가 동시에 등장하는 횟수를 세는 방법입니다. 동시 등장 횟수를 하나의 행렬로 나타낸 뒤, 그 행렬을 수치화해서 단어 벡터로 만드는 방법을 사용하는 방식입니다. 텍스트를 위와 같은 방식으로 수치화하면, 통계적인 접근 방법을 통해 여러 문서로 이루어진 텍스트 데이터가 있을 때 어떤 단어가 특정 문서내에서 얼마나 중요한 것인지를 나타내거나, 문서의 핵심어 추출, 검색 엔진에서 검색 결과의 순위 결정, 문서들 간의 유사도 등의 용도로 사용가능합니다. 각 단어에 1번, 2번, 3번 등과 같은 숫자를 맵핑(mapping)하여 부여한다면 이는 국소 표현 방법에 해당됩니다. 반면, 분산 표현 방법의 해당 단어를 표현하기 위해 주변 단어를 참고합니다. puppy(강아..
2022.03.22 -
Natural Language Processing with Disaster Tweets
Natural Language Processing with Disaster Tweets Predict which Tweets are about real disasters and which ones are not https://www.kaggle.com/c/nlp-getting-started Natural Language Processing with Disaster Tweets | Kaggle www.kaggle.com NLP 공부를 하면서 초기 논문부터 하나씩 보면서 작성해보고, 최신 트렌드를 공부해가면서, 직접 데이터 처리부터 모델을 돌려보고, 자연어를 어떻게 처리하는지 과정을 직접 경험해 보고 싶었다. 즉, NLP 모델을 돌리기 위한 직접 코딩을 하고 싶었다. 기존에 BERT Model을 공부하면서 ..
2022.02.28 -
New NLP Trands
Timkey, W. and van Schijndel, M. (2021) → Rogue(작은 몇개의 차원) 개념 제안. → rogue가 모델을 좌우하니, 이를 제어하는 postprocessing 테크닉 제안 Paik, C., Aroca-Ouellette, S., Roncone, A., and Kann, K. (2021) → CoDa(사람이 인지 가능한 색을 구분하기 위한 데이터) 구성 → PLM의 한계 지적. (병백하게 딱 이거다! 라고 말하는 사람x. 텍스트만으로는 이러한 데이터를 인지하는 것에 부족함 발견. 따라서 다양한 형태의 데이터를 언어 모델에 적용하는 방법 탐구 Kalyan, A., Kumar, A., Chandrasekaran, A., Sabharwal, A., and Clark, P. (20..
2022.02.28 -
[논문리뷰]Efficient Estimation of Word Representations in Vector Space
2022.02.20 - [Artificial_Intelligence/Papers] - [논문리뷰]Distributed Representations of Words and Phrases and their Compositionality [논문리뷰]Distributed Representations of Words and Phrases and their Compositionality ㄴDistributed Representations of Words and Phrases and their Compositionality Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advance..
2022.02.20 -
[논문리뷰]Distributed Representations of Words and Phrases and their Compositionality
Distributed Representations of Words and Phrases and their Compositionality Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems 26 (2013). Abstract (Eng.) The recently introduced continuous Skip-gram model is an efficient method for learning high-quality distributed vector representations that cap..
2022.02.20 -
[논문리뷰]A Neural Probabilistic Language Model
A Neural Probabilistic Language Model Bengio, Yoshua, Réjean Ducharme, and Pascal Vincent. "A neural probabilistic language model." Advances in Neural Information Processing Systems 13 (2000). NPLM은 단어를 임베딩하여 벡터로 바꾸는 과정에서 신경망 기반의 기법을 제시하여 향후 Word2Vec으로 가는 기반이 되었다고한다. 간단하게 학습 데이터에 존재하지 않는 n-gram이 포함된 문장이 나타날 확률을 0으로 매긴다 n을 5이상으로 설정하기 어렵기 때문에 문장의 장기 의존성을 포착해내기 어렵다. 단어/문장 간 유사도는 고려 하지 않는다. neural n..
2022.02.20 -
한국어 문서 요약 표현 논문 정리
1) 추출적 요약(extractive summarization) 추출적 요약은 원문에서 중요한 핵심 문장 또는 단어구를 몇 개 뽑아서 이들로 구성된 요약문을 만드는 방법입니다. 그렇기 때문에 추출적 요약의 결과로 나온 요약문의 문장이나 단어구들은 전부 원문에 있는 문장들입니다. 추출적 요약의 대표적인 알고리즘으로 머신 러닝 알고리즘인 텍스트랭크(TextRank)가 있습니다. 2) 추상적 요약(abstractive summarization) 추상적 요약은 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법입니다. 마치 사람이 요약하는 것 같은 방식인데, 당연히 추출적 요약보다는 난이도가 높습니다. 이 방법은 주로 인공 신경망을 사용하며 대표적인 모델로 seq2seq가 있..
2022.02.10 -
[NPLM] A Neural Probabilistic Language Model 논문리뷰
A Neural Probabilistic Language ModelYoshua Bengio,Réjean Ducharme,Pascal Vincent,Christian Janvin2003년 3월 1일NPLM은 단어를 임베딩하여 벡터로 바꾸는 과정에서 신경망 기반의 기법을 제시하여 향후 Word2Vec으로 가는 기반이 되었다고한다.간단하게학습 데이터에 존재하지 않는 n-gram이 포함된 문장이 나타날 확률을 0으로 매긴다n을 5이상으로 설정하기 어렵기 때문에 문장의 장기 의존성을 포착해내기 어렵다.단어/문장 간 유사도는 고려 하지 않는다.neural net을 쓰기 이전에는 smoothing( 작은 상수를 더해서 0이 안나오도록) 또는 backoff를 사용해서 data sparcity를 해결했다. long-te..
2022.01.11 -
(NLP)Embedding
밀집표현이란희소표현된 단어를 임의의 길이의 실수 벡터로 표현한 것이 과정을 워드 임베딩이라 하며, 밀집 표현된 결과를 임베딩 백터라 함.자연어처리(Natural Language Processing)분야에서의 임베딩이란사람이 쓰는 자연어 > 기계가 이해할 수 있는 숫자형태의 vector로 바꾸는 과정 및 결과 임베딩의 역할단어/문장 간 관련도 계산대표적 임베딩 기법 : Word2Vec컴퓨터가 계산하기 쉽도록 단어를 전체 단어들간의 관계에 맞춰 해당 단어의 특성을 갖는 벡터로 바꾸어 단어들 사이의 유사도를 계산하는 일이 가능해짐.임베딩을 하면 벡터 공간을 기하학적으로 나타낸 시각화 가능의미적/문법적 정보 함축사칙연산 가능.벡터간 덧셈/뺄셈 등을 통해 단어들 사이의 의미적, 문법적 관계 도출 가능단어 임베딩을..
2022.01.04