"데이터 전처리"에서 중요한 과정 중 하나인 이상치 처리에 대해 알아보자
ㅇ이상치(Outlier): 대다수의 데이터와 다른 통계적 특성을 가진 값
Fraud Detection(사기 탐지) 등의 경우, 분석 목적에 따라 정상/비정상의 기준을 정하는 것이 중요하다
[이상치 탐지 방법]
Boxplot을 활용하면 데이터의 중앙값(median)과 사분위 범위(1st Qu. ~ 3rd Qu.)를 기준으로 이상치를 시각적으로 확인할 수 있다
- Lower Whisker : 최소 정상값
- Upper Whisker : 최대 정상값
Whisker 밖에 위치한 데이터는 이상치로 간주될 수 있음
(예시)
boxplot(iris$sepal.width, main="Boxplot of Sepal Width")
[이상치 처리 방법]
i) 분석에서 제외 : 이상치를 제거하는 방법
하지만 비즈니스 관점에서 제거해도 되는지 반드시 검토 필요
ii) 다른 값으로 대체 : 데이터의 흐름을 유지하기 위해 이상치를 평균 or 중앙값 등의 대표값으로 대체 가능
(예시)
iris$sepal.width[iris$sepal.width > 4.4] <- median(iris$sepal.width)
(이상치 처리 시 주의사항)
- 정보 손실 위험: 이상치를 단순히 제거할 경우 중요한 패턴을 놓칠 수 있음
- 왜곡 발생 가능성: 이상치가 중요한 의미를 가진 경우, 제거할 경우 분석 결과가 왜곡될 수 있음
- 비즈니스 목적 검토: 이상치를 유지해야 하는 경우 (예: 사기 탐지)
'데이터 분석' 카테고리의 다른 글
[데이터 분석] 회귀분석(Regression Analysis) (0) | 2025.02.12 |
---|---|
[데이터 분석] 통계 용어 정리(feat. 퍼짐) (0) | 2025.02.11 |
[데이터 분석] 결측치 처리(Missing Value Handling) (0) | 2025.02.11 |
[데이터 분석] 데이터 구조 유형(R, Python) (0) | 2025.02.11 |
[데이터 분석] 분석 기법 및 활용 (0) | 2025.02.11 |