[Home] AI로 돌아가기

Token (토큰)

토큰(Token)은 자연어 처리(NLP)에서 텍스트를 작은 단위로 나누는 기본 요소다. 문장을 단어나 서브워드(subword) 단위로 쪼개어 모델이 이해할 수 있도록 변환하는 과정에서 사용된다.

목차

(1) 토큰이란?

토큰은 문장을 분석 가능한 작은 단위로 나눈 요소다. 일반적으로 단어, 문자, 혹은 의미 있는 문자열 덩어리로 정의된다.

(2) NLP에서의 토큰화(Tokenization)

자연어 처리(NLP) 모델은 텍스트를 직접 이해하지 못하므로, 텍스트를 토큰 단위로 변환하는 토큰화(Tokenization) 과정이 필요하다.

예제: "나는 학교에 간다" → ['나', '는', '학교', '에', '간다']

(3) 토큰 제한과 AI 모델

GPT-3 및 GPT-4 같은 AI 모델은 한 번에 처리할 수 있는 토큰 개수에 제한이 있다. 예를 들어, GPT-4는 최대 4,096개의 토큰을 처리할 수 있으며, 이 한계를 초과하면 텍스트가 잘리거나 일부가 무시된다.

(4) 다른 분야에서의 토큰 개념