본문 바로가기

데이터 전처리2

[데이터 분석] 결측치 처리(Missing Value Handling) "데이터 전처리"에서 중요한 과정 중 하나인 결측치 처리에 대해 알아보자  ㅁ결측치(Missing Value, NA, Not Available): 존재하지 않거나 관측되지 않은 값데이터셋에서 누락된 값이 있을 때 이를 결측치로 간주하며, 분석 과정에서 반드시 처리해야 한다 [결측치 처리 방법]i) 분석 제외 : 결측치가 포함된 데이터를 분석에서 제외하는 방법하지만 비즈니스 관점에서 제외해도 되는지 반드시 검토 필요 ii) 다른 값으로 대체시계열 데이터의 흐름을 반영하여 분석이 필요한 경우, 대표값 or 트렌드 값으로 대체df$ord_amt[is.na(df$ord_amt)]   + 다른 대체 방법1. 0으로 대체 : 특정 값이 중요하지 않을 때2. 이동 평균 적용 : 시계열 데이터 처리※ 이동 평균(Mov.. 2025. 2. 11.
[머신러닝] scikit-learn 라이브러리(머신러닝의 기초와 근간) ㅁ사이킷 런(scikit-learn): Python을 기반으로 한 머신러닝 라이브러리로 데이터 전처리, 지도 학습, 비지도 학습, 모델 평가 등 다양한 머신러닝 작업에 필요한 도구를 제공  [사이킷 런의 주요 특징들]다양한 머신러닝 알고리즘 지원지도 학습: 회귀, 분류(Linear Regression, Logistic Regression, Decision Tree, SVM 등)비지도 학습: 클러스터링, 차원 축소(KMeans, PCA, t-SNE 등)모델 선택 및 하이퍼파라미터 튜닝: GridSearchCV, RandomizedSearchCV강력한 데이터 전처리 도구결측값 처리, 데이터 표준화(StandardScaler), 데이터 정규화(MinMaxScaler)범주형 데이터 인코딩 (OneHotEncod.. 2025. 1. 2.