데이터 분석에서 중요한 개념 중 하나는 데이터 구조(Data Structure)이다. 기본적으로 R에서는 다양한 데이터 구조를 제공하며, 각각의 특징과 용도가 다르다. 본 문서에서는 R에서 사용되는 주요 데이터 구조를 정리하고 파이썬의 관점으로는 어떻게 사용할 수 있는지 살펴보려 한다!
1. Scalar : 구성 인자가 1개인 벡터
"하나의 값"만을 가지는 데이터 구조
(예시)
a <- 1
b <- "bbb"
2. Vector : 1차원 배열 형태의 데이터 구조 (모두 동일한 유형)
숫자형, 문자형 등 동일한 데이터 유형을 가진다
(예시)
x <- c(1, 2, 3)
y <- c("A", "B", "C")
3. Factor : 범주형 자료(명목형, 순서형)를 위한 구조
명목형 변수 또는 순서형 변수를 표현하는 데 사용됨
(예시)
factor_var <- factor(c("Low", "Medium", "High", "Low", "High"))
4. Array : 2차원 이상의 데이터 구조
다차원 데이터를 저장할 수 있음
(예시)
arr <- array(1:12, dim = c(3, 4))
5. List : 여러 유형, 여러 형태의 데이터를 묶은 연결리스트
벡터, 데이터 프레임, 행렬 등 다양한 데이터 구조를 포함 가능
(예시)
lst <- list(name = "John", age = 30, scores = c(90, 85, 88))
6. Matrix : 2차원으로 배열된 데이터 구조 (모두 동일한 유형)
행과 열을 가진 데이터 구조
(예시)
mat <- matrix(1:9, nrow = 3, ncol = 3)
7. Data Frame : 2차원으로 배열된 데이터 구조 (각 열마다 다른 형태의 데이터 지원)
가장 많이 사용되는 데이터 구조 중 하나
(예시)
df <- data.frame(id = c("c01", "c02", "c03"), gender = c("M", "F", "M"), age = c(28, 30, 24), ord_amt = c(50000, NA, 120000))
+
Tensor : 고차원 데이터를 저장할 수 있는 다차원 배열 구조

R에서는 기본적으로 Tensor를 지원하지 않지만, array 구조를 확장하여 사용할 수 있다
(예시)
tensor <- array(1:24, dim = c(3, 4, 2))
(참고) 파이썬 관점
R의 Matrix 형식: Numpy의 2D 배열
R의 Data Frame 형식: Pandas 라이브러리의 데이터 프레임
'데이터 분석' 카테고리의 다른 글
[데이터 분석] 이상치 처리(Outlier Handling) (0) | 2025.02.11 |
---|---|
[데이터 분석] 결측치 처리(Missing Value Handling) (0) | 2025.02.11 |
[데이터 분석] 분석 기법 및 활용 (0) | 2025.02.11 |
[데이터 분석] 척도화(스케일링, Scaling) 종류 (0) | 2025.02.11 |
[데이터 분석] 변수 유형 및 용어 정리 (0) | 2025.02.11 |