[Home] AI로 돌아가기

Outlier (이상치)

1) 이상치란?

이상치(Outlier)는 전체 데이터 분포에서 현저하게 벗어난 값을 의미한다. 통계적으로는 평균이나 중앙값으로부터 큰 거리를 가진 값으로 정의되며, 이는 데이터 분석, 모델 학습, 통계 추론 등에 중대한 영향을 미칠 수 있다.

박스플롯과 확률 밀도 함수
박스플롯과 확률 밀도 함수
중앙값 및 사분위수 범위를 벗어난 값들은 이상치로 간주된다.

2) 이상치의 원인

이상치는 다음과 같은 요인들에 의해 발생할 수 있다.

3) 이상치의 영향

이상치는 분석 결과 및 모델 성능에 다음과 같은 영향을 미칠 수 있다.

4) 이상치 탐지 방법

이상치는 다음과 같은 방법들을 통해 탐지할 수 있다.

이상치가 포함된 산점도
산점도에서 주요 군집과 동떨어진 점들은 이상치로 분류될 수 있다.

5) 이상치 처리 방법

이상치를 처리하는 방식은 분석 목적에 따라 달라질 수 있다.

“이상치는 문제일 수 있으나, 때로는 해답의 열쇠가 되기도 한다.” — 데이터 과학의 철학