[Home] AI로 돌아가기
Outlier (이상치)
1) 이상치란?
이상치(Outlier)는 전체 데이터 분포에서 현저하게 벗어난 값을 의미한다.
통계적으로는 평균이나 중앙값으로부터 큰 거리를 가진 값으로 정의되며, 이는 데이터 분석, 모델 학습, 통계 추론 등에 중대한 영향을 미칠 수 있다.
박스플롯과 확률 밀도 함수
중앙값 및 사분위수 범위를 벗어난 값들은 이상치로 간주된다.
2) 이상치의 원인
이상치는 다음과 같은 요인들에 의해 발생할 수 있다.
- 데이터 입력 오류: 센서의 오작동, 사용자 입력 실수 등
- 정상적이나 드문 사건: 현실에서 예외적으로 발생하는 현상
- 시스템 결함 또는 환경 변화: 네트워크 지연, 기계 고장 등
- 측정 단위의 불일치: 단위 착오로 인한 이상 값
3) 이상치의 영향
이상치는 분석 결과 및 모델 성능에 다음과 같은 영향을 미칠 수 있다.
- 평균, 분산 등의 통계 지표를 왜곡시킨다.
- 기계학습 모델의 과적합 또는 오작동을 유발할 수 있다.
- 이상 현상 감지, 고장 예측 등의 중요한 단서로 작용할 수 있다.
4) 이상치 탐지 방법
이상치는 다음과 같은 방법들을 통해 탐지할 수 있다.
- 통계 기반 방법: Z-점수, 사분위 범위(IQR) 등의 기준 활용
- 시각적 방법: 박스플롯, 산점도, 히스토그램 등을 이용한 탐지
- 기계학습 기반 방법: LOF, Isolation Forest, One-Class SVM 등
산점도에서 주요 군집과 동떨어진 점들은 이상치로 분류될 수 있다.
5) 이상치 처리 방법
이상치를 처리하는 방식은 분석 목적에 따라 달라질 수 있다.
- 제거: 명백한 오류일 경우 데이터를 제거함
- 대체: 평균 또는 중앙값으로 값을 대체함
- 보존: 실제로 중요한 이상 현상일 경우 데이터를 유지함
- 정규화: 스케일링 기법을 활용하여 이상치의 영향을 완화함
“이상치는 문제일 수 있으나, 때로는 해답의 열쇠가 되기도 한다.”
— 데이터 과학의 철학