RNN (Recurrent Neural Network)

장기 의존성 문제: 입력과 출력 사이의 간격이 길어질수록 과거 정보가 소실될 가능성
기울기 소실/폭발: 역전파 과정에서 그래디언트가 너무 작거나 커져 학습이 어려워질 수 있음

RNN(순환 신경망)은 순차적인 데이터를 처리할 수 있도록 고안된 신경망 구조로, 입력 순서를 고려하여 시간적 흐름이나 문맥을 반영할 수 있다.

(1) 기본 개념

RNN은 일반적인 신경망과 달리 내부 상태(state)를 유지하여 입력 간의 순서를 고려한다. 이 특성 덕분에 자연어, 음성, 시계열 등 시간 종속성이 있는 데이터 처리에 유용하다.

RNN은 각 시점의 입력과 이전 시점의 은닉 상태(hidden state)를 이용해 현재 상태를 계산하며, 이를 다음 시점으로 넘긴다. 이처럼 은닉 상태가 순환 구조를 형성함으로써 과거 정보를 기억하게 된다.

트랜스포머(Transformer)와 RNN은 모두 순차 데이터를 처리하기 위한 구조지만, 처리 방식과 성능 면에서 큰 차이가 있다.

이처럼 트랜스포머는 병렬성과 문맥 처리 능력에서 RNN을 능가하며, 최근 대부분의 NLP 모델은 트랜스포머 구조를 채택하고 있다.