'퍼짐'의 개념을 중심으로 통계 용어를 정리해 보자!
ㅇ표준편차(Standard Deviation): 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 정량적으로 측정하는 지표
- 값이 클수록 데이터의 변동성이 크다(데이터 값들이 평균에서 크게 벗어나 있다)
- 값이 작을수록 데이터가 평균에 가까이 집중되어 있다
ㅇ변이계수(Coefficient of Variance, CV): 서로 다른 단위를 가진 변수들의 퍼짐 정도를 비교할 때 사용하는 지표
표준편차를 평균으로 나눈 값으로 계산된다
- 변이계수가 크면 데이터가 평균값에서 크게 벗어나 있음을 의미한다
- 변이계수가 작을수록 평균값을 중심으로 데이터가 밀집되어 있다
ㅇ사분위수(Quantile): 데이터를 작은 값부터 큰 값까지 나열한 후 특정 백분위 위치에 있는 값
25% 사분위수(Q1), 50% 사분위수(Q2 = 중앙값), 75% 사분위수(Q3) 등으로 구분된다
ㅇ사분위수 범위(IQR): 데이터의 중앙값을 중심으로 동일한 백분율을 가진 두 값 간의 거리
사분위수 범위를 구하는 공식) IQR = Q3 - Q1
IQR은 데이터의 중간 50% 범위를 측정하므로, 이상치를 탐지하는 데 유용하다!
[데이터 분석] 이상치 처리(Outlier Handling)
"데이터 전처리"에서 중요한 과정 중 하나인 이상치 처리에 대해 알아보자 ㅇ이상치(Outlier): 대다수의 데이터와 다른 통계적 특성을 가진 값Fraud Detection(사기 탐지) 등의 경우, 분석 목적에
claremont.tistory.com
ㅇ범위(Range): 데이터에서 최댓값과 최솟값 간의 차이 (범위 = 최댓값 - 최솟값)
데이터가 얼마나 넓게 퍼져 있는지를 확인할 수 있다
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
[분포 / 대칭]
ㅇ왜도(skewness): 데이터가 평균을 중심으로 "얼마나 치우쳐 있는지"를 나타내는 지표
i) 왜도가 0 : 데이터가 좌우 대칭적인 '정규분포'
ii) 왜도가 음수(-) : 왼쪽으로 치우친 분포(음의 왜도)
iii) 왜도가 양수(+) : 오른쪽으로 치우친 분포(양의 왜도)
- 값이 0에 가까울수록 좌우 대칭적인 분포이다
(절댓값이 클수록 한쪽으로 치우친 정도가 크다)
ㅇ첨도(kurtosis): 데이터 분포의 "뾰족한 정도"를 나타내는 지표
i) 첨도가 0 : '정규분포'
ii) 첨도가 음수(-) : 완만한 분포(극단값이 적고 데이터가 넓게 퍼져 있음)
iii) 첨도가 양수(+) : 뾰족한 분포(극단값이 많고 중심부에 데이터가 집중되어 있음)
'데이터 분석' 카테고리의 다른 글
[데이터 분석] 회귀분석(Regression Analysis) (0) | 2025.02.12 |
---|---|
[데이터 분석] 이상치 처리(Outlier Handling) (0) | 2025.02.11 |
[데이터 분석] 결측치 처리(Missing Value Handling) (0) | 2025.02.11 |
[데이터 분석] 데이터 구조 유형(R, Python) (0) | 2025.02.11 |
[데이터 분석] 분석 기법 및 활용 (0) | 2025.02.11 |