VLM은 이미지(또는 비디오)와 텍스트를 동시에 이해하고 생성하는 멀티모달 인공지능 모델을 의미한다.
전통적으로 분리되어 발전하던 컴퓨터 비전(이미지 인식)과 자연어 처리(텍스트 이해)를 공통 표현 공간으로 연결하여,
시각적 맥락을 텍스트로 설명하거나 텍스트 조건을 바탕으로 시각 정보를 추론하는 등 다양한 과업을 수행한다.
(1) 정의와 핵심 개념
컴퓨팅 비전과 자연어 처리(NLP) 기능을 결합한 인공지능(AI) 모델이다.
VLM은 시각 인코더와 언어 인코더(또는 디코더)를 결합하여, 시각·언어 모달리티를 상호 조건화하거나
동일한 임베딩 공간으로 정렬(alignment)하는 모델을 말한다. 핵심은 서로 다른 모달리티를
상호작용(cross-modal interaction)하도록 설계하여, 단일 모달보다 풍부한 의미 표현과 추론 능력을 제공하는 데 있다.
최근 대규모 사전학습과 지시학습(instruction tuning), 외부 도구 연계(Retrieval·Vision Tool-use) 등이 결합되며
범용 멀티모달 에이전트로 확장되고 있다.
zero-shot 이미지 분류 task가 있다고 가정해보자.
이미지와 몇 개의 prompt를 같이 모델에 보내면, 모델은 입력 이미지에 가장 그럴듯한 prompt를 출력하게 된다.
이렇게 예측을 하기 위해서, 모델은 입력 이미지와 텍스트 prompt를 모두 이해하고 있을 필요가 있다.
모델은 시각적 및 언어적 이해를 얻기 위해 encoder을 분리하거나 융합하는 등의 과정을 거친다.
출처: https://cartinoe5930.tistory.com/
(2) 아키텍처 구성
시각 인코더(Vision Encoder)
이미지(또는 프레임 시퀀스)를 패치/토큰 단위로 분해하여 임베딩을 생성한다.
전형적으로 CNN 또는 Vision Transformer(ViT)가 사용된다.
언어 모듈(Language Model)
텍스트를 임베딩하고, 시각 임베딩과의 상호작용을 통해 답변 생성·추론을 수행한다.
GPT류의 Transformer 디코더가 널리 쓰인다.
멀티모달 융합(Fusion / Alignment)
Contrastive 정렬: 이미지·텍스트 쌍을 같은 공간으로 당기고(positive), 불일치 쌍은 밀어내는(negative) 방식(CLIP 계열).
Cross-Attention: 언어 토큰이 시각 토큰을 참조하거나 그 반대로 교차 주의를 통해 정보 결합.
어댑터/프로젝터: 시각 임베딩을 언어 모델이 수용 가능한 차원·형식으로 변환하는 얇은 계층(예: Q-Former, MLP projector).
디코딩(Generation)
질의응답, 캡셔닝 등에서 언어 디코더가 최종 출력을 생성하며, 필요 시 시각 grounding(박스·포인트)나 구조화된 포맷(JSON 등)으로 출력한다.
(3) 학습 패러다임
대규모 사전학습(Pretraining)
이미지–텍스트 페어로 대용량 사전학습을 수행한다. 대표적으로 대조학습(contrastive)과
언어모델링(텍스트 생성)이 결합된다.
지시·대화 튜닝(Instruction/Chat Tuning)
사용자의 질의 방식에 맞춘 프롬프트-응답 데이터를 통해 멀티모달 대화 능력을 강화한다.
태스크 특화 파인튜닝(Task-specific Fine-tuning)
VQA, OCR, Chart/Document 이해, 의료 영상 등 도메인 데이터를 사용해 성능을 정교화한다.
RAG/Tool-use 연계
외부 검색·OCR 엔진·코드 실행기 등 도구를 호출하여 지식 보강이나 계산 능력을 확장한다.
(4) 대표 과업
이미지 캡셔닝: 이미지 내용을 자연어로 기술.
VQA(Visual Question Answering): 이미지 기반 질의응답.
시각적 추론·상식: 장면 관계, 사건 추론, 다단계(reasoning) 답변.
OCR/Document 이해: 문서 스캔, 표/차트/도면 해석, 레이아웃 인식.
Grounding: 텍스트 지시와 이미지 영역(박스/포인트)의 대응.
검색/재현: 텍스트→이미지, 이미지→텍스트 검색 및 재순위화.
비디오 이해: 장면 요약, 동작 인식, 시계열 질의응답.
(5) 주요 데이터셋
일반 도메인: COCO, Visual Genome, Conceptual Captions(CC3M/CC12M), LAION-5B 등.
질의응답·추론: VQA v2, GQA, OK-VQA, ScienceQA.
문서/차트: DocVQA, ChartQA.
비디오: MSR-VTT, HowTo100M 등이 널리 사용된다.
(6) 평가 지표와 벤치마크
캡셔닝: BLEU, METEOR, CIDEr, SPICE 등.
VQA/추론: 정확도(accuracy), 개방형 답변의 경우 정규화·매칭 규칙을 적용.
검색: Recall@K, mAP 등 순위 기반 지표.
문서 이해: SER/CharAcc, TEDS(구조 일치) 등.
종합 벤치: MME, MMMU, TextVQA, ScienceQA(MM) 등 멀티태스크 지표 세트가 활용된다.
(7) 장점과 한계
장점
시각·언어 결합으로 맥락 이해와 설명 가능성이 향상된다.
다양한 다운스트림 태스크에 범용성을 제공한다.
지시·대화 튜닝으로 인간 친화적 인터페이스를 제공한다.
한계
대규모 데이터·연산 자원 의존으로 학습/추론 비용이 높다.
이미지 편향·저품질 캡션 등으로 데이터 편향이 내재될 수 있다.
복잡한 다단계 시각 추론, 수리·도표 해석 등에서 여전히 한계가 존재한다.
개인정보·저작권 이슈, 민감 이미지 처리 등 윤리·거버넌스 고려가 필요하다.
(8) 설계·운영 실무 팁
입력 파이프라인: 해상도·비율 정규화, 타일링/크롭 전략, 캡션 품질 관리.
프로젝터/어댑터: 경량 어댑터로 LLM과 시각 인코더를 연동하면 비용 대비 성능이 우수하다.