[Home] AI로 돌아가기
🔗 관련 문서:
Wikipedia - Gemini (AI) |
Google DeepMind - Gemini
Gemini - 제미나이 / 제미니
Gemini는 Google DeepMind가 개발한 멀티모달 대형 언어 모델(LLM)이다.
텍스트, 이미지, 오디오, 비디오, 코드 등 다양한 입력을 동시에 처리할 수 있으며, 메모리, 추론, 계획 능력을 활용해 인간 수준의 지능형 에이전트로 설계되었다.
(1) Gemini 버전
- Gemini 1.0 (2023.12): 최초 공개, 멀티모달 기능 탑재
- Gemini 1.5 (2024.02): 더 긴 컨텍스트 창 (최대 1M 토큰)
- Gemini 2.0 (2024.12 예정): 차세대 AGI 지향 버전
(2) 주요 기능
- 멀티모달 처리: 텍스트, 이미지, 오디오, 비디오, 코드 모두 이해 및 생성 가능
- 추론 능력 강화: 복잡한 논리적 문제 해결과 계획 기반 응답 가능
- 메모리 탑재: 대화 내역을 기억하고 활용하는 지속성 기반 상호작용 제공
- 개발 친화적: 코드 생성, 디버깅 등 프로그래밍 도구로 활용 가능
(3) 타 모델과 비교
모델 |
주요 특징 |
멀티모달 지원 |
메모리 기능 |
Gemini |
모든 입력 처리 + 장기 기억 |
O |
O |
GPT-4 |
텍스트 중심의 고성능 NLP |
O (제한적) |
X |
Claude |
긴 컨텍스트 + 안정성 강조 |
X |
O |
(4) 구조 개념도
Gemini 모델은 멀티모달 입력을 처리하기 위한 복합적인 인코더-디코더 구조를 갖는다.
그림 1. Gemini 모델 패밀리 구조
출처: DeepMind Gemini