다른 값으로 대체2 [데이터 분석] 이상치 처리(Outlier Handling) "데이터 전처리"에서 중요한 과정 중 하나인 이상치 처리에 대해 알아보자 ㅇ이상치(Outlier): 대다수의 데이터와 다른 통계적 특성을 가진 값Fraud Detection(사기 탐지) 등의 경우, 분석 목적에 따라 정상/비정상의 기준을 정하는 것이 중요하다 [이상치 탐지 방법]Boxplot을 활용하면 데이터의 중앙값(median)과 사분위 범위(1st Qu. ~ 3rd Qu.)를 기준으로 이상치를 시각적으로 확인할 수 있다- Lower Whisker : 최소 정상값- Upper Whisker : 최대 정상값 Whisker 밖에 위치한 데이터는 이상치로 간주될 수 있음(예시)boxplot(iris$sepal.width, main="Boxplot of Sepal Width") [이상치 처리 방법]i) 분.. 2025. 2. 11. [데이터 분석] 결측치 처리(Missing Value Handling) "데이터 전처리"에서 중요한 과정 중 하나인 결측치 처리에 대해 알아보자 ㅁ결측치(Missing Value, NA, Not Available): 존재하지 않거나 관측되지 않은 값데이터셋에서 누락된 값이 있을 때 이를 결측치로 간주하며, 분석 과정에서 반드시 처리해야 한다 [결측치 처리 방법]i) 분석 제외 : 결측치가 포함된 데이터를 분석에서 제외하는 방법하지만 비즈니스 관점에서 제외해도 되는지 반드시 검토 필요 ii) 다른 값으로 대체시계열 데이터의 흐름을 반영하여 분석이 필요한 경우, 대표값 or 트렌드 값으로 대체df$ord_amt[is.na(df$ord_amt)] + 다른 대체 방법1. 0으로 대체 : 특정 값이 중요하지 않을 때2. 이동 평균 적용 : 시계열 데이터 처리※ 이동 평균(Mov.. 2025. 2. 11. 이전 1 다음