[Home] AI로 돌아가기

🔗 관련 문서: Wikipedia - Large Language Model · Wikipedia - Knowledge Distillation · Wikipedia - Quantization (ML) · Wikipedia - Edge Computing

SLM (Small Language Model)

SLM은 파라미터 수와 실행 자원이 상대적으로 작은 자연어 생성·이해 모델을 가리킨다. 일반적으로 수억~수십억 파라미터 규모를 가정하며, 경량 추론과 온디바이스(on-device) 배치를 주요 설계 목표로 둔다. SLM은 범용 지식의 폭보다 실용적 지연(latency), 자원 효율, 프라이버시를 우선한다.

(1) 정의와 범주

Small Language Model은 동일 세대의 대규모 언어모델(LLM)에 비해 파라미터 규모가 작고, 메모리·연산 요구량이 낮도록 설계된 모델군이다. 모델 구조는 대개 디코더 전용 트랜스포머를 채택하며, 배포 대상 환경(모바일, 임베디드, 경량 서버)에 맞춰 권한·보안 제약전력 예산을 고려한다. 일반 도메인 사전학습 후, 특정 작업에 대해 지시튜닝(Instruction Tuning)도메인 파인튜닝을 병행하는 구성이 보편적이다.

(2) 설계·학습 기법

  1. 지식 압축: 대형 교사(Teacher) 모델의 행동을 모사하는 지식 증류(Knowledge Distillation)를 통해 작은 학생(Student) 모델에 성능을 이식한다.
  2. 정밀도 최적화: 가중치·활성값을 8비트/4비트 등으로 낮추는 양자화(Quantization)로 메모리와 대역폭을 절감한다. 추론 가속기와의 정합을 위해 그룹드/대칭·비대칭 스킴을 혼용한다.
  3. 저랭크 적응: LoRA/QLoRA 등 적은 추가 파라미터로 도메인 적합을 수행하여 원본 가중치를 고정한 채 배포·롤백을 단순화한다.
  4. 컨텍스트 확장: 압축 토크나이저, RoPE 스케일링, 캐시 재활용 등으로 제한된 메모리에서 긴 문맥 처리를 가능케 한다.
  5. 외부 지식 결합: RAG(Retrieval-Augmented Generation)과 툴 사용을 통해 모델 파라미터 외부의 최신·사내 지식을 결합하여 작은 파라미터의 한계를 보완한다.
  6. 보안·프라이버시: 온디바이스 추론을 통해 데이터의 로컬 처리를 보장하며, 민감 쿼리에 대해 클라우드 호출을 제한하거나 프록시로 마스킹한다.

(3) LLM과의 비교

SLM과 LLM은 목적과 운용 방식에서 차이가 있다. LLM은 광범위한 지식 범위와 높은 생성 품질을 추구하는 반면, SLM은 경량·저지연 추론과 배포 용이성을 중시한다.

(4) 활용 영역

(5) 장점과 한계

장점

한계

(6) 구축 체크리스트

  1. 요구 지연·전력·오프라인성 등 운용 제약을 명시한다.
  2. 도메인 데이터와 평가 지표를 정의하고 SLM+RAG 기준선을 수립한다.
  3. 모델 선택(크기/어휘/컨텍스트), 양자화/가속 백엔드를 확정한다.
  4. 지식 증류·LoRA·프롬프트 스키마를 적용하고 A/B·휴리스틱 가드를 구성한다.
  5. 보안·프라이버시·로깅·온디바이스 업데이트 정책을 수립한다.
  6. 실사용 로그 기반 재학습·평가 루프를 설계한다.

(7) 개념도

다음은 SLM·LLM의 배치 대비 관계를 개략적으로 표현한 도식이다(예시).

그림 1. 엣지(SLM)–클라우드(LLM) 하이브리드 추론 개념도
출처: Wikimedia Commons (Edge computing topology)
...
Bigger is not always better: comparing LLMs and SLMs
LLM의 강력한 추론 능력과 SLM의 빠른 생성 속도를 결합한 하이브리드 아키텍처를 나타낸다. LLM이 복잡한 사고와 계획을 담당하고, SLM이 실제 토큰 생성을 빠르게 처리하는 분업 구조로, 품질과 효율성을 모두 확보하려는 접근법이다.
출처: https://pieces.app/blog/llm-vs-slm