한국어 문서 요약 표현 논문 정리
·
Artificial_Intelligence🤖/Natural Language Processing
1) 추출적 요약(extractive summarization) 추출적 요약은 원문에서 중요한 핵심 문장 또는 단어구를 몇 개 뽑아서 이들로 구성된 요약문을 만드는 방법입니다. 그렇기 때문에 추출적 요약의 결과로 나온 요약문의 문장이나 단어구들은 전부 원문에 있는 문장들입니다. 추출적 요약의 대표적인 알고리즘으로 머신 러닝 알고리즘인 텍스트랭크(TextRank)가 있습니다. 2) 추상적 요약(abstractive summarization) 추상적 요약은 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법입니다. 마치 사람이 요약하는 것 같은 방식인데, 당연히 추출적 요약보다는 난이도가 높습니다. 이 방법은 주로 인공 신경망을 사용하며 대표적인 모델로 seq2seq가 있..
DBLP DataSet Processing / 대용량 Json 파싱
·
Artificial_Intelligence🤖/Natural Language Processing
그래프 임베딩을 공부하기 위한 DataSet으로 DBLP로 정하고 이를 가져와보았다. https://www.aminer.org/citation AMiner www.aminer.org 이 곳에 들어가서 이 데이터를 가져와서 다운로드를 받았다. 그런데 문제는 이 데이터를 가져와서 전처리를 해야하는데 용량이 16.1GB 이다.. 웬만한 에디터로 열리지도 않는 데이터를 처리해야해서 막막했었다. 그래서 생각한 것이 데이터를 용량을 정해서 자르고, 자른 코드를 수작업으로 조금만 손봐주자고 생각하였다. 내가 사용한 프로그램은 GSplit 3 이다. 여기서 가져온 DBLP Json파일을 가져와서 1GB씩 먼저 잘랐다. 이렇게 되면, 딕셔너리로 자르는 것이 아닌 용량으로 자르기에 Json 형식이 깨지게 된다. 따라서, ..
[NPLM] A Neural Probabilistic Language Model 논문리뷰
·
Artificial_Intelligence🤖/Natural Language Processing
A Neural Probabilistic Language ModelYoshua Bengio,Réjean Ducharme,Pascal Vincent,Christian Janvin2003년 3월 1일NPLM은 단어를 임베딩하여 벡터로 바꾸는 과정에서 신경망 기반의 기법을 제시하여 향후 Word2Vec으로 가는 기반이 되었다고한다.간단하게학습 데이터에 존재하지 않는 n-gram이 포함된 문장이 나타날 확률을 0으로 매긴다n을 5이상으로 설정하기 어렵기 때문에 문장의 장기 의존성을 포착해내기 어렵다.단어/문장 간 유사도는 고려 하지 않는다.neural net을 쓰기 이전에는 smoothing( 작은 상수를 더해서 0이 안나오도록) 또는 backoff를 사용해서 data sparcity를 해결했다. long-te..
JSON
·
Artificial_Intelligence🤖/Natural Language Processing
Java Script Object Notation 의 약자이다. json은 단순한 데이터 포멧이다. 데이터를 표시하는 방법일 뿐이다. 속성-값 쌍 / 키-값 쌍 json을 쓰는 이유 json파일이 가지고 있는 데이터를 받아서 객체나 변수에 할당해서 사용하기 위함이다 json의 구조 1. Object(객체) name/value 의 순서쌍으로 set이다. {} 로 정의된다. ex) { "이름" : "홍길동" } 2. Array(배열) ex) [ 10, "array", 32 ] 전체적인 구조 { "이름": "홍길동", → 스트링 "나이": 25, → 숫자 (정수) "특기": ["농구", "도술"], → list 표현 가능 "가족관계": {"아버지": "홍판서", "어머니": "춘섬"}, → array 표현 가..
(NLP)Embedding
·
Artificial_Intelligence🤖/Natural Language Processing
밀집표현이란희소표현된 단어를 임의의 길이의 실수 벡터로 표현한 것이 과정을 워드 임베딩이라 하며, 밀집 표현된 결과를 임베딩 백터라 함.자연어처리(Natural Language Processing)분야에서의 임베딩이란사람이 쓰는 자연어 > 기계가 이해할 수 있는 숫자형태의 vector로 바꾸는 과정 및 결과 임베딩의 역할단어/문장 간 관련도 계산대표적 임베딩 기법 : Word2Vec컴퓨터가 계산하기 쉽도록 단어를 전체 단어들간의 관계에 맞춰 해당 단어의 특성을 갖는 벡터로 바꾸어 단어들 사이의 유사도를 계산하는 일이 가능해짐.임베딩을 하면 벡터 공간을 기하학적으로 나타낸 시각화 가능의미적/문법적 정보 함축사칙연산 가능.벡터간 덧셈/뺄셈 등을 통해 단어들 사이의 의미적, 문법적 관계 도출 가능단어 임베딩을..
Graph
·
Artificial_Intelligence🤖/Natural Language Processing
노드와 그 노드를 연결하는 간선을 하나로 모아 놓은 자료구조.연결되어 있는 객체간의 관계를 표현할 수 있는 자료구조. 그래프(Graph) 용어정점(vertex): 위치라는 개념. (node 라고도 부름)간선(edge): 위치 간의 관계. 즉, 노드를 연결하는 선 (link, branch 라고도 부름)인접(Adjacency) 정점 x와 정점 y가 간선에 의해 연결되어져 있다면, 이들 두 정점 x와 y를 인접(Adjacent)되어있다고 한다.인접 정점(adjacent vertex): 간선에 의 해 직접 연결된 정점부속(Incident)정점 사이에 연결된 간선을 두 정점 X와 Y에 부속되어있다고 한다.정점의 차수(degree): 무방향 그래프에서 하나의 정점에 인접한 정점의 수무방향 그래프에 존재하는 정점의 ..
IoT, Embedded
·
Hi🖐️/Embedded, IoT
- IOT란 무엇인가? ( 3I’s of IOT) 각종 사물에 센서와 통신 기능을 내장하여 인터넷에 연결하는 기술로, 무선 통신을 통해 각종 모바일 장비, 웨어러블 디바이스 등 다양한 임베디드 시스템을 연결하는 기술이다. IOT를 설명하자면, 디바이스에서 데이터를 관리할수있는 Instrumented(도구화), Interconnected(상호연결), Intelligent(지능화)의 관계로 설명할 수 있다. 디바이스에서 데이터를 관리할 수 있는 Instrumented(도구화)와 이것을 보낼 수 있고, 서로 통신할 수 있는 Interconnected(상호연결), 여기서 데이터를 받아서 분석 및 관리할 수 있는 Intelligent(지능화), 이 세 개의 관계를 가지고 있는 것이 IoT이다. - IOT 1.0 ..
Solve Titanic problem with Reinforcement Learning
·
Artificial_Intelligence🤖/Reinforcement Learning
Introduction - Classification, Prediction using RL like DQN. - Different Existing deep learning is a method of increasing the accuracy of a model through a network. DQN is a reinforcement learning method in which Q values are selected and acted through a model. - Usually, RL does not used to solve classification or Prediction problems. DQN code used in the game is analyzed and refactored to be u..
DQN, A3C
·
Artificial_Intelligence🤖/Reinforcement Learning
DQN (Deep Q Network) DQN is learning using deep learning neural networks such as CNN. Method of storing samples obtained from each time step, randomly selecting these samples to configure and update them into mini-batches. Existing RL, once it start learning in a bad way, it continue learning in a bad way. The problem is solved by randomly extracting and breaking the correlation between samples...
Multi-Agent Reinforcement Learning
·
Artificial_Intelligence🤖/Reinforcement Learning
MARL(Multi-Agent Reinforcement Learning) - Trying to study Multi-Agent Algorithms in reinforcement learning. - For collaboration or competition, it is a field in which multiple agents interact with each other and find optimal behavior. - In reality, in order for Reinforcement learning to actually apply, the characteristics of various fields must be considered, so multi-agent consideration is ess..
Liky
'분류 전체보기' 카테고리의 글 목록 (5 Page)