이상 탐지 (Anomaly Detection)는 정상적인 패턴에서 벗어난 비정상적인 데이터나 행동을 식별하는 기술이다. 이는 금융 사기, 네트워크 보안, 센서 오작동 탐지 등 다양한 분야에서 필수적인 역할을 한다.
LOF(Local Outlier Factor)는 데이터의 국지적 밀도(local density)를 기준으로 이상 여부를 판별하는 알고리즘이다. 주변 데이터들에 비해 밀도가 낮은 포인트일수록 이상치일 가능성이 높다고 본다. 단순 거리 기반 방법과 달리, 데이터가 밀집된 지역과 희박한 지역을 구분할 수 있어, 복잡한 분포의 데이터셋에서 효과적이다.
이상은 형태에 따라 다음과 같이 구분된다.
이상 탐지는 다양한 접근 방식으로 수행된다.
이상 탐지는 다음과 같은 실제 문제에 널리 활용된다.
이상 탐지에서 가장 큰 어려움은 데이터 불균형과 이상 정의의 모호성이다. 대부분의 데이터는 정상이고, 이상은 희귀하게 존재하기 때문에 학습이 어렵다.
또한 실시간 탐지의 복잡성, 과적합 문제, 그리고 결과에 대한 설명 가능성(Explainability) 부족도 중요한 연구 과제로 남아 있다.
“모든 이상이 오류는 아니며, 모든 오류가 이상으로 탐지되지는 않는다.” — 데이터 과학 격언