[데이터 분석] 데이터 구조 유형(R, Python)

데이터 분석에서 중요한 개념 중 하나는 데이터 구조(Data Structure)이다. 기본적으로 R에서는 다양한 데이터 구조를 제공하며, 각각의 특징과 용도가 다르다. 본 문서에서는 R에서 사용되는 주요 데이터 구조를 정리하고 파이썬의 관점으로는 어떻게 사용할 수 있는지 살펴보려 한다!

1. Scalar : 구성 인자가 1개인 벡터
"하나의 값"만을 가지는 데이터 구조

(예시)

a <- 1
b <- "bbb"

2. Vector : 1차원 배열 형태의 데이터 구조 (모두 동일한 유형)
숫자형, 문자형 등 동일한 데이터 유형을 가진다

(예시)

x <- c(1, 2, 3)
y <- c("A", "B", "C")

3. Factor : 범주형 자료(명목형, 순서형)를 위한 구조
명목형 변수 또는 순서형 변수를 표현하는 데 사용됨

(예시)

factor_var <- factor(c("Low", "Medium", "High", "Low", "High"))

4. Array : 2차원 이상의 데이터 구조
다차원 데이터를 저장할 수 있음

(예시)

arr <- array(1:12, dim = c(3, 4))

5. List : 여러 유형, 여러 형태의 데이터를 묶은 연결리스트
벡터, 데이터 프레임, 행렬 등 다양한 데이터 구조를 포함 가능

(예시)

lst <- list(name = "John", age = 30, scores = c(90, 85, 88))

6. Matrix : 2차원으로 배열된 데이터 구조 (모두 동일한 유형)
행과 열을 가진 데이터 구조

(예시)

mat <- matrix(1:9, nrow = 3, ncol = 3)

7. Data Frame : 2차원으로 배열된 데이터 구조 (각 열마다 다른 형태의 데이터 지원)
가장 많이 사용되는 데이터 구조 중 하나

(예시)

df <- data.frame(id = c("c01", "c02", "c03"), gender = c("M", "F", "M"), age = c(28, 30, 24), ord_amt = c(50000, NA, 120000))

Tensor : 고차원 데이터를 저장할 수 있는 다차원 배열 구조

R에서는 기본적으로 Tensor를 지원하지 않지만, array 구조를 확장하여 사용할 수 있다

(예시)

tensor <- array(1:24, dim = c(3, 4, 2))

(참고) 파이썬 관점

R의 Matrix 형식: Numpy의 2D 배열

R의 Data Frame 형식: Pandas 라이브러리의 데이터 프레임

저작자표시 비영리 변경금지 (새창열림)

'데이터 분석' 카테고리의 다른 글

[데이터 분석] 이상치 처리(Outlier Handling) (0)	2025.02.11
[데이터 분석] 결측치 처리(Missing Value Handling) (0)	2025.02.11
[데이터 분석] 분석 기법 및 활용 (0)	2025.02.11
[데이터 분석] 척도화(스케일링, Scaling) 종류 (0)	2025.02.11
[데이터 분석] 변수 유형 및 용어 정리 (0)	2025.02.11