본문 바로가기

데이터 분석12

[데이터 분석] 회귀분석(Regression Analysis) ㅁ회귀분석(Regression Analysis): 두 개 이상의 변수 간의 관계를 분석하고, 이를 기반으로 값을 예측하는 통계 기법독립 변수 X(입력)와 종속 변수 y(출력) 간의 관계를 찾고, 이를 수학적 모델로 표현하는 것이 핵심이다독립 변수와 종속 변수 사이의 변화에 따라 "회귀"한다[회귀분석의 종류 5가지]1. 단순 선형 회귀(Simple Linear Regression): 독립 변수(X)가 하나이고, 종속 변수(y)와의 선형 관계를 분석하는 기법e.g. 광고 비용(X)과 제품 판매량(y) 간의 관계 분석2. 다중 선형 회귀(Multiple Linear Regression): 여러 개의 독립 변수(X)가 종속 변수(y)에 영향을 미치는 경우 적용e.g. 주택 가격 예측 (평수, 위치, 연식 등 여.. 2025. 2. 12.
[데이터 분석] 통계 용어 정리(feat. 퍼짐) '퍼짐'의 개념을 중심으로 통계 용어를 정리해 보자! ㅇ표준편차(Standard Deviation): 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 정량적으로 측정하는 지표- 값이 클수록 데이터의 변동성이 크다(데이터 값들이 평균에서 크게 벗어나 있다)- 값이 작을수록 데이터가 평균에 가까이 집중되어 있다ㅇ변이계수(Coefficient of Variance, CV): 서로 다른 단위를 가진 변수들의 퍼짐 정도를 비교할 때 사용하는 지표표준편차를 평균으로 나눈 값으로 계산된다- 변이계수가 크면 데이터가 평균값에서 크게 벗어나 있음을 의미한다- 변이계수가 작을수록 평균값을 중심으로 데이터가 밀집되어 있다ㅇ사분위수(Quantile): 데이터를 작은 값부터 큰 값까지 나열한 후 특정 백분위 위치에 있는 값25%.. 2025. 2. 11.
[데이터 분석] 이상치 처리(Outlier Handling) "데이터 전처리"에서 중요한 과정 중 하나인 이상치 처리에 대해 알아보자  ㅇ이상치(Outlier): 대다수의 데이터와 다른 통계적 특성을 가진 값Fraud Detection(사기 탐지) 등의 경우, 분석 목적에 따라 정상/비정상의 기준을 정하는 것이 중요하다 [이상치 탐지 방법]Boxplot을 활용하면 데이터의 중앙값(median)과 사분위 범위(1st Qu. ~ 3rd Qu.)를 기준으로 이상치를 시각적으로 확인할 수 있다- Lower Whisker : 최소 정상값- Upper Whisker : 최대 정상값 Whisker 밖에 위치한 데이터는 이상치로 간주될 수 있음(예시)boxplot(iris$sepal.width, main="Boxplot of Sepal Width") [이상치 처리 방법]i) 분.. 2025. 2. 11.
[데이터 분석] 결측치 처리(Missing Value Handling) "데이터 전처리"에서 중요한 과정 중 하나인 결측치 처리에 대해 알아보자  ㅁ결측치(Missing Value, NA, Not Available): 존재하지 않거나 관측되지 않은 값데이터셋에서 누락된 값이 있을 때 이를 결측치로 간주하며, 분석 과정에서 반드시 처리해야 한다 [결측치 처리 방법]i) 분석 제외 : 결측치가 포함된 데이터를 분석에서 제외하는 방법하지만 비즈니스 관점에서 제외해도 되는지 반드시 검토 필요 ii) 다른 값으로 대체시계열 데이터의 흐름을 반영하여 분석이 필요한 경우, 대표값 or 트렌드 값으로 대체df$ord_amt[is.na(df$ord_amt)]   + 다른 대체 방법1. 0으로 대체 : 특정 값이 중요하지 않을 때2. 이동 평균 적용 : 시계열 데이터 처리※ 이동 평균(Mov.. 2025. 2. 11.
[데이터 분석] 데이터 구조 유형(R, Python) 데이터 분석에서 중요한 개념 중 하나는 데이터 구조(Data Structure)이다. 기본적으로 R에서는 다양한 데이터 구조를 제공하며, 각각의 특징과 용도가 다르다. 본 문서에서는 R에서 사용되는 주요 데이터 구조를 정리하고 파이썬의 관점으로는 어떻게 사용할 수 있는지 살펴보려 한다!  1. Scalar : 구성 인자가 1개인 벡터"하나의 값"만을 가지는 데이터 구조(예시)a  2. Vector : 1차원 배열 형태의 데이터 구조 (모두 동일한 유형)숫자형, 문자형 등 동일한 데이터 유형을 가진다(예시)x  3. Factor : 범주형 자료(명목형, 순서형)를 위한 구조명목형 변수 또는 순서형 변수를 표현하는 데 사용됨(예시)factor_var  4. Array : 2차원 이상의 데이터 구조다차원 데이.. 2025. 2. 11.
[데이터 분석] 분석 기법 및 활용 데이터 분석 기법에 대해 알아보자정형 데이터 분석 / 비정형 데이터 분석으로 구분되며, 각각의 기법이 특정한 데이터 유형과 분석 목적에 따라 활용된다! [정형 데이터 분석]- 탐색적 데이터 분석 (EDA)데이터 시각화: 데이터를 시각적으로 표현하여 패턴을 파악 (Box plot, Histogram, Pareto chart, Odds ratio)군집분석 (Clustering): 비슷한 특성을 가진 고객이나 데이터를 그룹화 (구매 패턴 유사 고객 분석, People Like Me 분석)연관분석 (Association): 데이터 간의 연관 관계 파악 (장바구니 분석, 연관 검색어 분석)- 예측 분석 (Prediction)의사결정나무 (Decision Tree): 분류 및 예측 모델 구축 (고객 행동 예측, .. 2025. 2. 11.
[데이터 분석] 척도화(스케일링, Scaling) 종류 ㅁ척도화(Scaling): 자료가 수집될 때 관찰된 현상에 하나의 값을 할당시키기 위해 사용되는 측정의 수준Numeric 데이터에서 목적에 따라 유형이 달라짐을 정확히 구분하여 이해해야 함  1. 이산형 / 범주형 (Discrete / Categorical)1-1.이진(Binary) 척도: 2개의 서로 다른 상태를 구분e.g. 합격 여부 1-2. 명목(Nominal) 척도: 데이터 특성을 분류하기 위해 수치로 기호 부여e.g. 운동선수 등번호, 성별 1-3.순서(Ordinal) 척도: 데이터 간 순서 존재수치 간의 양적인 의미가 있다e.g. 순위(1등 > 2등 > 3등)  2. 연속형 (Continuous)2-1. 구간(Interval) 척도: 명목 + 순서 + 구간숫자 간의 간격이 산술적 의미를 가짐※.. 2025. 2. 11.
[데이터 분석] 변수 유형 및 용어 정리 [데이터 분석 변수 유형]1. 독립변수 (Input, X 변수) - 보통 값이 여러 개이기 때문에 대문자 X로 표기한다현상의 변화를 초래하는 원인이 되는 원인변수e.g. 날씨, 가격, 광고비 등 2. 종속변수 (Target / Output, y 변수) - 보통 값이 하나이기 때문에 소문자 y로 표기한다모든 현상의 결과가 되는 결과변수e.g. 판매량, 방문자 수, 수익 등 3. 매개변수 (intervening variable)- 종속변수에 영향을 미치기 위하여 독립변수가 작용하는 시점과 독립변수가 종속변수에 영향을 미치는 시점의 중간에 나타나는 변수- 독립변수와 종속변수에 직접적 영향을 주고받음e.g. 학습 시간(독립변수)이 성적(종속변수)에 영향을 미칠 때, 집중력(매개변수)이 중간 역할을 함 4. 통제.. 2025. 2. 11.
[데이터 분석] PyDeck 라이브러리 ㅁPyDeck 라이브러리: Python 환경에서 지도 기반의 대화형 데이터 시각화를 쉽게 구현할 수 있도록 돕는 강력한 라이브러리 ㅇDeck.gl: Uber에서 개발한 오픈소스 지리공간 시각화 프레임워크PyDeck은 이 Deck.gl을 Python 환경으로 가져와 데이터 분석가들이 손쉽게 지도 기반 데이터를 시각화할 수 있도록 지원한다  ※ 대화형 데이터란?사용자가 데이터와 직접 상호작용할 수 있도록 설계된 데이터를 의미한다. 이는 데이터 시각화나 분석 과정에서 사용자가 원하는 방식으로 데이터를 탐색하거나 조작할 수 있게 만들어 준다. 대화형 데이터의 가장 큰 특징은 정적인 데이터가 아니라 동적으로 반응하는 데이터라는 점이다. [PyDeck의 주요 특징]지도 기반 데이터 시각화PyDeck은 위도와 경도를.. 2024. 12. 28.