본문 바로가기
데이터 분석

[데이터 분석] 이상치 처리(Outlier Handling)

by 클레어몬트 2025. 2. 11.

"데이터 전처리"에서 중요한 과정 중 하나인 이상치 처리에 대해 알아보자

 

 

ㅇ이상치(Outlier): 대다수의 데이터와 다른 통계적 특성을 가진 값

빨간색 동그라미에 해당하는 데이터가 바로 이상치이다


Fraud Detection(사기 탐지) 등의 경우, 분석 목적에 따라 정상/비정상의 기준을 정하는 것이 중요하다

 


[이상치 탐지 방법]


Boxplot을 활용하면 데이터의 중앙값(median)사분위 범위(1st Qu. ~ 3rd Qu.)를 기준으로 이상치를 시각적으로 확인할 수 있다


- Lower Whisker : 최소 정상값


- Upper Whisker : 최대 정상값

 

Whisker 밖에 위치한 데이터는 이상치로 간주될 수 있음

(예시)

boxplot(iris$sepal.width, main="Boxplot of Sepal Width")

 



[이상치 처리 방법]


i) 분석에서 제외 : 이상치를 제거하는 방법

하지만 비즈니스 관점에서 제거해도 되는지 반드시 검토 필요

 


ii) 다른 값으로 대체 : 데이터의 흐름을 유지하기 위해 이상치를 평균 or 중앙값 등의 대표값으로 대체 가능

 

(예시)

iris$sepal.width[iris$sepal.width > 4.4] <- median(iris$sepal.width)

 



(이상치 처리 시 주의사항)

- 정보 손실 위험: 이상치를 단순히 제거할 경우 중요한 패턴을 놓칠 수 있음

- 왜곡 발생 가능성: 이상치가 중요한 의미를 가진 경우, 제거할 경우 분석 결과가 왜곡될 수 있음

- 비즈니스 목적 검토: 이상치를 유지해야 하는 경우 (예: 사기 탐지)