Tokenization에 대하여
·
Artificial_Intelligence🤖/Natural Language Processing
안녕하세요, 오늘은 자연어처리의 가장 기초에 해당하는 Tokenization 에 대해 살펴보고 각 방법론들의 핵심 아이디어들을 살펴보겠습니다! 텍스트를 잘게 쪼개는 기술이 어떻게 컴퓨터가 인간의 언어를 이해하도록 돕는지 함께 확인해봅시다.토큰화란 무엇일까요? 🤔토큰화는 긴 문장을 작은 조각으로 나누는 과정이에요. 마치 큰 케이크를 먹기 좋게 자르는 것처럼요! 이렇게 나눈 조각들을 '토큰'이라고 부릅니다.예를 들어볼까요?"안녕하세요, 오늘 날씨가 참 좋네요!" → ["안녕하세요", ",", "오늘", "날씨가", "참", "좋네요", "!"]Tokenization은 문장이나 문서를 모델이 처리할 수 있는 작은 단위, 즉 토큰들로 분할하는 과정을 말합니다. 이 과정은 확률 모델이든 신경망 모델이든 간에, ..