GRU는 RNN의 한 종류로, LSTM과 비슷한 목적을 가지되, 구조는 더 간단하다.
장기 의존성 문제를 완화하면서 계산 효율성을 높인 것이 주요 특징이다.
GRU는 은닉 상태와 셀 상태를 하나로 통합해 사용한다.
입력과 이전 상태를 바탕으로 두 개의 게이트가 정보 흐름을 조절하고, 새로운 은닉 상태를 생성한다.
이 덕분에 LSTM보다 학습 속도가 빠르며, 장기 의존성도 어느 정도 유지 가능하다.
LSTM이 RNN보다 훨씬 강력한 모델이기는 하지만, 단점도 있다. 계산량이 많아 속도가 느리고, 복잡한 구조 때문에 구현이 어렵다는 것이다. 그래서 등장한 모델이 바로 GRU(Gated Recurrent Unit)이다. GRU는 LSTM과 비슷한 기능을 하지만 구조가 더 단순해 빠르게 동작한다. LSTM과 GRU는 비슷한 시기에 등장했지만 서로 스타일이 다른 모델이다. 마치 필기할 때 다른 사람처럼 말이다. LSTM이 ‘꼼꼼한 필기형’이라면, GRU는 ‘빠른 요약형’이다.
LSTM은 모든 중요한 내용을 필기장에서 정리하고 필요한 때 꺼내 본다. 하지만 필기가 많아 시간이 오래 걸린다. 그에 비해 GRU는 중요한 정보만 간략하게 요약해서 기록한다. 그래서 복잡한 정보를 짧고 빠르게 기억하고 활용할 수 있다. GRU는 LSTM보다 단순하기 때문에 암기 구조와 원리가 짧고 빠르다. 즉, 중요한 부분만 간단하게 정리해서 보관하는 방식이다. GRU는 LSTM보다 계산량이 적기 때문에 빠른 속도가 중요한 경우에 많이 사용된다. GRU는 LSTM보다 더 가볍고 빠르게 정보를 기억하는 방식으로 발전했다. 여전히 RNN 기반의 구조적 한계를 벗어나진 못했다. GRU와 LSTM은 입력된 정보를 효과적으로 기억하는 데 집중한 모델이기에, 번역처럼 새로운 문장을 만들어야 하는 작업에는 최적화되지 않았다. ‘잘 기억하는 것’과 ‘잘 생성하는 것’은 다르다.