[Home] AI로 돌아가기

🔗 관련 문서: Wikipedia - State of the art · Papers with Code - SOTA Leaderboards · MLPerf 벤치마크

SOTA (State of the Art)

SOTA 모델은 특정 벤치마크에서 현재까지 보고된 결과 중 가장 높은 성능(최저 오류율/최고 점수 등)을 달성한 모델을 의미한다. 이는 고정된 데이터셋과 평가 지표 하에서 비교 가능성을 확보한 정량적 최고 성능을 가리키며, 항상 절대적으로 ‘최고의 모델’을 뜻하는 것은 아니다.

(1) 개념과 배경

연구 커뮤니티는 공정한 비교를 위해 공개 데이터셋과 표준화된 평가 프로토콜을 사용한다. 동일한 조건에서 가장 우수한 결과를 기록한 모델을 해당 과제의 SOTA로 부른다. 다만 데이터 분포, 계산 자원, 프롬프트(언어모델) 등 실험 설정의 차이가 결과에 영향을 줄 수 있으므로, 재현성실험 세부 설정 확인이 필수다.

(2) 평가 지표

과제별로 지표가 다르다. 분류는 정확도(Accuracy), 정보검색은 정밀도/재현율/평균정밀도(mAP), 번역과 요약은 BLEU/ROUGE, 언어모델은 Perplexity나 과제별 정확도 등을 사용한다. 아래는 대표 지표 예시이다.

과제주요 지표해석
이미지 분류Top-1/Top-5 Accuracy, Error높을수록(오류는 낮을수록) 좋음
객체 탐지mAP@[IoU]정답과의 겹침 정도(IoU)를 반영한 평균정밀도
기계 번역BLEU참조 번역과의 n-그램 중첩
요약/생성ROUGE-L최장 공통 부분수열 기반 유사도
질의응답/추론Exact Match / F1정답 토큰 일치율 및 부분 정답 보정
...
ROC 곡선
출처: https://m.blog.naver.com/y4769/220290361813

(3) 벤치마크 & 리더보드

(4) 한계와 오해

(5) SOTA 표 읽는 법

  1. 실험 설정: 데이터 분할, 전처리, 프롬프트/샘플링, 컴퓨트 예산을 먼저 확인.
  2. 지표 정의: 어떤 지표인지, 상향/하향 지표인지, 평가 스크립트/버전을 명시했는지 확인.
  3. 분산/반복: 평균±표준편차, 시드 반복 수, 유의성 검정을 제공하는지 확인.
  4. 추가 특성: 파라미터 수, 추론 지연(latency), 비용, 메모리, 오픈 여부 등을 함께 비교.
  5. 재현성: 코드/체크포인트/로그가 공개됐는지 확인하고, 가능한 한 재현 실험 수행.

(6) 용어 정리