SOTA 모델은 특정 벤치마크에서 현재까지 보고된 결과 중 가장 높은 성능(최저 오류율/최고 점수 등)을 달성한 모델을 의미한다.
이는 고정된 데이터셋과 평가 지표 하에서 비교 가능성을 확보한 정량적 최고 성능을 가리키며, 항상 절대적으로 ‘최고의 모델’을 뜻하는 것은 아니다.
(1) 개념과 배경
연구 커뮤니티는 공정한 비교를 위해 공개 데이터셋과 표준화된 평가 프로토콜을 사용한다.
동일한 조건에서 가장 우수한 결과를 기록한 모델을 해당 과제의 SOTA로 부른다.
다만 데이터 분포, 계산 자원, 프롬프트(언어모델) 등 실험 설정의 차이가 결과에 영향을 줄 수 있으므로, 재현성과 실험 세부 설정 확인이 필수다.
(2) 평가 지표
과제별로 지표가 다르다. 분류는 정확도(Accuracy), 정보검색은 정밀도/재현율/평균정밀도(mAP), 번역과 요약은 BLEU/ROUGE, 언어모델은 Perplexity나 과제별 정확도 등을 사용한다.
아래는 대표 지표 예시이다.