자연어 처리(NLP)는 사람의 언어(자연어)를 컴퓨터가 이해하고 생성할 수 있도록 하는 기술이다.
자연어 처리는 컴퓨터가 인간의 언어를 분석, 이해, 생성할 수 있도록 하는 기술로, 음성 인식, 기계 번역, 챗봇, 감성 분석 등에 사용된다.
텍스트 데이터를 분석하기 위해 문장을 작은 단위(토큰)로 나누는 과정이다.
예제:
문장: "나는 학교에 갑니다."
토큰화 결과: ["나", "는", "학교", "에", "가", "ᄇ니다"]
숫자로 변환: [1, 2, 3, 4, 5, 6]