본문 바로가기

인공지능6

[머신러닝] scikit-learn 라이브러리(머신러닝의 기초와 근간) ㅁ사이킷 런(scikit-learn): Python을 기반으로 한 머신러닝 라이브러리로 데이터 전처리, 지도 학습, 비지도 학습, 모델 평가 등 다양한 머신러닝 작업에 필요한 도구를 제공  [사이킷 런의 주요 특징들]다양한 머신러닝 알고리즘 지원지도 학습: 회귀, 분류(Linear Regression, Logistic Regression, Decision Tree, SVM 등)비지도 학습: 클러스터링, 차원 축소(KMeans, PCA, t-SNE 등)모델 선택 및 하이퍼파라미터 튜닝: GridSearchCV, RandomizedSearchCV강력한 데이터 전처리 도구결측값 처리, 데이터 표준화(StandardScaler), 데이터 정규화(MinMaxScaler)범주형 데이터 인코딩 (OneHotEncod.. 2025. 1. 2.
[데이터 분석] PyDeck 라이브러리 ㅁPyDeck 라이브러리: Python 환경에서 지도 기반의 대화형 데이터 시각화를 쉽게 구현할 수 있도록 돕는 강력한 라이브러리 ㅇDeck.gl: Uber에서 개발한 오픈소스 지리공간 시각화 프레임워크PyDeck은 이 Deck.gl을 Python 환경으로 가져와 데이터 분석가들이 손쉽게 지도 기반 데이터를 시각화할 수 있도록 지원한다  ※ 대화형 데이터란?사용자가 데이터와 직접 상호작용할 수 있도록 설계된 데이터를 의미한다. 이는 데이터 시각화나 분석 과정에서 사용자가 원하는 방식으로 데이터를 탐색하거나 조작할 수 있게 만들어 준다. 대화형 데이터의 가장 큰 특징은 정적인 데이터가 아니라 동적으로 반응하는 데이터라는 점이다. [PyDeck의 주요 특징]지도 기반 데이터 시각화PyDeck은 위도와 경도를.. 2024. 12. 28.
[데이터 분석] NumPy(넘파이) 라이브러리 ㅁNumPy: Python에서 과학 계산을 위해 널리 사용되는 핵심 라이브러리Numerical Python의 약자인 NumPy는 다차원 배열 객체와 배열을 효율적으로 처리하기 위한 다양한 함수들을 제공한다. NumPy는 고성능의 다차원 배열을 지원하며, 데이터 분석, 수치 계산, 머신러닝 등 다양한 분야에서 활용된다.  [NumPy의 주요 기능 4가지]다차원 배열 객체 (ndarray)NumPy의 중심에는 ndarray라는 다차원 배열 객체가 있다. 이 객체는 동일한 데이터 유형을 가지는 요소들을 효율적으로 저장하고 조작할 수 있도록 설계되었다수학 및 통계 함수NumPy는 배열 데이터를 기반으로 다양한 수학적 연산(예: 합계, 평균, 표준편차 등)을 지원한다벡터화 연산NumPy는 반복문을 제거하고 배열 .. 2024. 12. 24.
[데이터 분석] Joblib 라이브러리 ㅇJoblib 라이브러리: Python에서 데이터 직렬화, 병렬처리 및 메모리 효율적인 데이터 처리에 사용되는 라이브러리주로 머신러닝이나 데이터 과학 작업에서 모델을 저장하거나 대규모 데이터를 처리할 때 유용하게 사용된다. joblib은 표준 라이브러리인 pickle과 유사하지만 더 빠르고 효율적으로 동작한다는 장점이 있다.  [joblib의 주요 기능]1. 데이터 직렬화와 역직렬화를 통한 모델 저장과 불러오기2. 메모리 캐싱을 통한 계산 최적화3. 병렬 처리를 통한 성능 향상  [데이터 직렬화와 역직렬화]joblib의 dump() 와 load() 함수는 데이터나 머신러닝 모델을 파일로 저장하고 불러올 때 사용된다. 이 기능은 학습된 모델을 나중에 재사용하거나 공유할 때 매우 유용하다. 예를 들어 sci.. 2024. 12. 17.
[데이터 분석] Pandas 라이브러리 ㅇPandas 라이브러리: Python 에서 데이터 분석과 조작을 위해 널리 사용되는 오픈소스 라이브러리효율적인 데이터 구조와 풍부한 기능을 제공하여 다양한 데이터 작업을 간단하게 수행할 수 있도록 도와준다. 주로 Series와 DataFrame이라는 두 가지 주요 데이터 구조를 사용하며, 데이터 처리 속도를 크게 향상시키는 것이 특징이다.  [Pandas의 주요 데이터 구조 2가지]1. Series: 1차원 배열로, 인덱스를 포함하는 데이터 구조리스트나 딕셔너리를 기반으로 생성할 수 있으며, 데이터와 인덱스를 함께 저장한다import pandas as pd# 리스트를 기반으로 Series 생성data = [10, 20, 30]series = pd.Series(data, index=['A', 'B', '.. 2024. 12. 15.
[머신러닝] Gradient Boosting Regressor Model(학습 데이터 수가 적을 때 유용) 데이터의 수가 적을 때는 머신러닝 모델 선택이 더욱 중요하다. 데이터가 충분하지 않다면 딥러닝 모델은 과적합(overfitting) 문제가 발생할 가능성이 높으며, 계산 자원이 낭비될 수 있다. 이러한 경우에는 Scikit-learn 라이브러리의 Gradient Boosting Regressor 모델이 효과적인 대안이 될 수 있다. ㅇGradient Boosting Regressor: 부스팅(Boosting) 기법을 사용하여 여러 개의 약한 학습기(weak learners)를 조합해 강력한 학습기(strong learner)를 만들어내는 모델기본적으로 결정 트리(Decision Tree)를 약한 학습기로 사용하며, 각 단계에서 이전 단계의 오류를 보완하면서 점진적으로 모델의 성능을 향상시킨다과적합 제어:.. 2024. 11. 22.