[Home] AI로 돌아가기

🔗 관련 문서: Wikipedia - Gemini (AI) | Google DeepMind - Gemini

Gemini - 제미나이 / 제미니

GeminiGoogle DeepMind가 개발한 멀티모달 대형 언어 모델(LLM)이다. 텍스트, 이미지, 오디오, 비디오, 코드 등 다양한 입력을 동시에 처리할 수 있으며, 최신 버전은 깊은 추론(Thinking)자율적 행동(Agentic) 능력을 갖춘 차세대 AI 에이전트로 진화하였다.

(1) Gemini 버전 역사

Gemini는 1.0 시리즈를 시작으로 지속적으로 성능과 효율성을 개선해오고 있다.

(2) 주요 기능

(3) 타 모델과 비교

모델 주요 특징 멀티모달 컨텍스트 창
Gemini (3.0/2.5) 네이티브 멀티모달 + 에이전트 추론 O (영상/음성 최적화) 최대 2M+ (가장 큼)
GPT-4o / o1 고성능 논리 추론 및 대화 O 128k
Claude 3.5 자연스러운 문장력 + 코딩 능력 O (이미지 중심) 200k ~ 500k

(4) 구조 개념도

Gemini는 텍스트와 비전, 오디오를 각각 별도로 처리하지 않고 하나의 모델 안에서 통합 처리하는 MoE(Mixture-of-Experts) 기반의 아키텍처를 사용한다.

Gemini 구조 개요도
그림 1. Gemini의 네이티브 멀티모달 처리 구조
출처: Google DeepMind