"데이터 전처리"에서 중요한 과정 중 하나인 결측치 처리에 대해 알아보자
ㅁ결측치(Missing Value, NA, Not Available): 존재하지 않거나 관측되지 않은 값
데이터셋에서 누락된 값이 있을 때 이를 결측치로 간주하며, 분석 과정에서 반드시 처리해야 한다
[결측치 처리 방법]
i) 분석 제외 : 결측치가 포함된 데이터를 분석에서 제외하는 방법
하지만 비즈니스 관점에서 제외해도 되는지 반드시 검토 필요
ii) 다른 값으로 대체
시계열 데이터의 흐름을 반영하여 분석이 필요한 경우, 대표값 or 트렌드 값으로 대체
df$ord_amt[is.na(df$ord_amt)] <- mean(df$ord_amt, na.rm = TRUE) # 평균값으로 대체
+ 다른 대체 방법
1. 0으로 대체 : 특정 값이 중요하지 않을 때
2. 이동 평균 적용 : 시계열 데이터 처리
※ 이동 평균(Moving Average): 시계열 데이터에서 사용하는 평균값으로, 시간 흐름에 따른 평균값으로 트렌드를 파악한다
(결측치 처리 시 주의사항)
- 정보 손실 위험: 결측치를 단순 제거할 경우 유용한 정보가 손실될 수 있음
- 왜곡 발생 가능성: 결측치를 잘못 처리하면 잘못된 결론 도출 가능
- 공유 및 문서화 필수: 결측치 처리 방법을 명확하게 문서화하여 팀원과 공유해야 함
'데이터 분석' 카테고리의 다른 글
[데이터 분석] 통계 용어 정리(feat. 퍼짐) (0) | 2025.02.11 |
---|---|
[데이터 분석] 이상치 처리(Outlier Handling) (0) | 2025.02.11 |
[데이터 분석] 데이터 구조 유형(R, Python) (0) | 2025.02.11 |
[데이터 분석] 분석 기법 및 활용 (0) | 2025.02.11 |
[데이터 분석] 척도화(스케일링, Scaling) 종류 (0) | 2025.02.11 |