[Home] AI로 돌아가기

🔗 관련 문서: Wikipedia - Multimodal AI | Wikipedia - CLIP | Wikipedia - Transformer

VLM (Vision-Language Model; 비전 언어 모델)

VLM은 이미지(또는 비디오)와 텍스트를 동시에 이해하고 생성하는 멀티모달 인공지능 모델을 의미한다. 전통적으로 분리되어 발전하던 컴퓨터 비전(이미지 인식)과 자연어 처리(텍스트 이해)를 공통 표현 공간으로 연결하여, 시각적 맥락을 텍스트로 설명하거나 텍스트 조건을 바탕으로 시각 정보를 추론하는 등 다양한 과업을 수행한다.

(1) 정의와 핵심 개념

컴퓨팅 비전과 자연어 처리(NLP) 기능을 결합한 인공지능(AI) 모델이다.

VLM은 시각 인코더와 언어 인코더(또는 디코더)를 결합하여, 시각·언어 모달리티를 상호 조건화하거나 동일한 임베딩 공간으로 정렬(alignment)하는 모델을 말한다. 핵심은 서로 다른 모달리티를 상호작용(cross-modal interaction)하도록 설계하여, 단일 모달보다 풍부한 의미 표현과 추론 능력을 제공하는 데 있다.

최근 대규모 사전학습과 지시학습(instruction tuning), 외부 도구 연계(Retrieval·Vision Tool-use) 등이 결합되며 범용 멀티모달 에이전트로 확장되고 있다.

...
zero-shot 이미지 분류 task가 있다고 가정해보자. 이미지와 몇 개의 prompt를 같이 모델에 보내면, 모델은 입력 이미지에 가장 그럴듯한 prompt를 출력하게 된다. 이렇게 예측을 하기 위해서, 모델은 입력 이미지와 텍스트 prompt를 모두 이해하고 있을 필요가 있다. 모델은 시각적 및 언어적 이해를 얻기 위해 encoder을 분리하거나 융합하는 등의 과정을 거친다.
출처: https://cartinoe5930.tistory.com/

(2) 아키텍처 구성

  1. 시각 인코더(Vision Encoder)
    이미지(또는 프레임 시퀀스)를 패치/토큰 단위로 분해하여 임베딩을 생성한다. 전형적으로 CNN 또는 Vision Transformer(ViT)가 사용된다.
  2. 언어 모듈(Language Model)
    텍스트를 임베딩하고, 시각 임베딩과의 상호작용을 통해 답변 생성·추론을 수행한다. GPT류의 Transformer 디코더가 널리 쓰인다.
  3. 멀티모달 융합(Fusion / Alignment)
  4. 디코딩(Generation)
    질의응답, 캡셔닝 등에서 언어 디코더가 최종 출력을 생성하며, 필요 시 시각 grounding(박스·포인트)나 구조화된 포맷(JSON 등)으로 출력한다.

(3) 학습 패러다임

(4) 대표 과업

(5) 주요 데이터셋

일반 도메인: COCO, Visual Genome, Conceptual Captions(CC3M/CC12M), LAION-5B 등. 질의응답·추론: VQA v2, GQA, OK-VQA, ScienceQA. 문서/차트: DocVQA, ChartQA. 비디오: MSR-VTT, HowTo100M 등이 널리 사용된다.

(6) 평가 지표와 벤치마크

(7) 장점과 한계

장점

한계

(8) 설계·운영 실무 팁

  1. 입력 파이프라인: 해상도·비율 정규화, 타일링/크롭 전략, 캡션 품질 관리.
  2. 프로젝터/어댑터: 경량 어댑터로 LLM과 시각 인코더를 연동하면 비용 대비 성능이 우수하다.
  3. 지시 튜닝 데이터: 고품질 멀티턴 대화·정답 근거(rationale)를 포함하면 실제 활용도가 높아진다.
  4. RAG·도구 연계: OCR·검색·코드 실행기, 표/도식 파서 등과 조합해 실전 성능을 보완한다.
  5. 안전성: 이미지 기반 유해 콘텐츠 필터링, 개인정보 마스킹, 저작권 메타데이터 관리.
  6. 모니터링: 태스크별 지표·에러 분석 대시보드 구축, 데이터 드리프트 감지.

(9) 대표 모델 예시