본문 바로가기

머신러닝3

[머신러닝] scikit-learn 라이브러리(머신러닝의 기초와 근간) ㅁ사이킷 런(scikit-learn): Python을 기반으로 한 머신러닝 라이브러리로 데이터 전처리, 지도 학습, 비지도 학습, 모델 평가 등 다양한 머신러닝 작업에 필요한 도구를 제공  [사이킷 런의 주요 특징들]다양한 머신러닝 알고리즘 지원지도 학습: 회귀, 분류(Linear Regression, Logistic Regression, Decision Tree, SVM 등)비지도 학습: 클러스터링, 차원 축소(KMeans, PCA, t-SNE 등)모델 선택 및 하이퍼파라미터 튜닝: GridSearchCV, RandomizedSearchCV강력한 데이터 전처리 도구결측값 처리, 데이터 표준화(StandardScaler), 데이터 정규화(MinMaxScaler)범주형 데이터 인코딩 (OneHotEncod.. 2025. 1. 2.
[데이터 분석] Joblib 라이브러리 ㅇJoblib 라이브러리: Python에서 데이터 직렬화, 병렬처리 및 메모리 효율적인 데이터 처리에 사용되는 라이브러리주로 머신러닝이나 데이터 과학 작업에서 모델을 저장하거나 대규모 데이터를 처리할 때 유용하게 사용된다. joblib은 표준 라이브러리인 pickle과 유사하지만 더 빠르고 효율적으로 동작한다는 장점이 있다.  [joblib의 주요 기능]1. 데이터 직렬화와 역직렬화를 통한 모델 저장과 불러오기2. 메모리 캐싱을 통한 계산 최적화3. 병렬 처리를 통한 성능 향상  [데이터 직렬화와 역직렬화]joblib의 dump() 와 load() 함수는 데이터나 머신러닝 모델을 파일로 저장하고 불러올 때 사용된다. 이 기능은 학습된 모델을 나중에 재사용하거나 공유할 때 매우 유용하다. 예를 들어 sci.. 2024. 12. 17.
[머신러닝] Gradient Boosting Regressor Model(학습 데이터 수가 적을 때 유용) 데이터의 수가 적을 때는 머신러닝 모델 선택이 더욱 중요하다. 데이터가 충분하지 않다면 딥러닝 모델은 과적합(overfitting) 문제가 발생할 가능성이 높으며, 계산 자원이 낭비될 수 있다. 이러한 경우에는 Scikit-learn 라이브러리의 Gradient Boosting Regressor 모델이 효과적인 대안이 될 수 있다. ㅇGradient Boosting Regressor: 부스팅(Boosting) 기법을 사용하여 여러 개의 약한 학습기(weak learners)를 조합해 강력한 학습기(strong learner)를 만들어내는 모델기본적으로 결정 트리(Decision Tree)를 약한 학습기로 사용하며, 각 단계에서 이전 단계의 오류를 보완하면서 점진적으로 모델의 성능을 향상시킨다과적합 제어:.. 2024. 11. 22.