[Home] AI로 돌아가기

SOTA (State of the Art)

SOTA 모델은 특정 벤치마크에서 현재까지 보고된 결과 중 가장 높은 성능(최저 오류율/최고 점수 등)을 달성한 모델을 의미한다. 이는 고정된 데이터셋과 평가 지표 하에서 비교 가능성을 확보한 정량적 최고 성능을 가리키며, 항상 절대적으로 ‘최고의 모델’을 뜻하는 것은 아니다.

(1) 개념과 배경

연구 커뮤니티는 공정한 비교를 위해 공개 데이터셋과 표준화된 평가 프로토콜을 사용한다. 동일한 조건에서 가장 우수한 결과를 기록한 모델을 해당 과제의 SOTA로 부른다. 다만 데이터 분포, 계산 자원, 프롬프트(언어모델) 등 실험 설정의 차이가 결과에 영향을 줄 수 있으므로, 재현성과 실험 세부 설정 확인이 필수다.

(2) 평가 지표

과제별로 지표가 다르다. 분류는 정확도(Accuracy), 정보검색은 정밀도/재현율/평균정밀도(mAP), 번역과 요약은 BLEU/ROUGE, 언어모델은 Perplexity나 과제별 정확도 등을 사용한다. 아래는 대표 지표 예시이다.

과제	주요 지표	해석
이미지 분류	Top-1/Top-5 Accuracy, Error	높을수록(오류는 낮을수록) 좋음
객체 탐지	mAP@[IoU]	정답과의 겹침 정도(IoU)를 반영한 평균정밀도
기계 번역	BLEU	참조 번역과의 n-그램 중첩
요약/생성	ROUGE-L	최장 공통 부분수열 기반 유사도
질의응답/추론	Exact Match / F1	정답 토큰 일치율 및 부분 정답 보정

ROC 곡선
출처: https://m.blog.naver.com/y4769/220290361813

(3) 벤치마크 & 리더보드

Papers with Code: 논문-코드-점수를 연결해 공개 리더보드를 제공한다.
MLPerf: 산업/연구계가 공동 운영하는 대규모 성능 벤치마크(학습·추론).
과제별 대표 세트 예: ImageNet(이미지 분류), GLUE/SuperGLUE(언어이해), MMLU(지식/추론), MS MARCO(검색), COCO(탐지/세그멘테이션) 등.

(4) 한계와 오해

벤치마크 과적합: 공개 데이터에 맞춤 최적화로 일반화가 약해질 수 있다.
실사용 괴리: 지표가 실제 제품 품질(비용·지연·안정성·보안)을 모두 대변하지 않는다.
폐쇄 모델 비교: 데이터/규모/툴체인 비공개 시 공정 비교가 어렵다.
통계적 유의성: 작은 차이는 표본 변동으로 설명될 수 있어 신뢰구간/다중비교를 확인해야 한다.

(5) SOTA 표 읽는 법

실험 설정: 데이터 분할, 전처리, 프롬프트/샘플링, 컴퓨트 예산을 먼저 확인.
지표 정의: 어떤 지표인지, 상향/하향 지표인지, 평가 스크립트/버전을 명시했는지 확인.
분산/반복: 평균±표준편차, 시드 반복 수, 유의성 검정을 제공하는지 확인.
추가 특성: 파라미터 수, 추론 지연(latency), 비용, 메모리, 오픈 여부 등을 함께 비교.
재현성: 코드/체크포인트/로그가 공개됐는지 확인하고, 가능한 한 재현 실험 수행.

(6) 용어 정리

Benchmark: 공정 비교를 위한 표준 과제/데이터/평가 절차 세트.
Leaderboard: 동일 벤치마크 결과를 순위로 정리한 표.
Baseline: 비교 기준이 되는 기존 모델/방법.
SOTA: 특정 벤치마크에서 최고 성능을 기록한 모델.
Generalization: 보지 못한 분포에서도 성능을 유지하는 능력.