scikit-learn 라이브러리3 [머신러닝] kNN(k-Nearest Neighbors, k-최근접 이웃) 알고리즘 가장 간단하면서도 강력한 지도 학습(Supervised Learning) 알고리즘 중 하나! ㅁk-최근접 이웃(k-Nearest Neighbors, kNN) 알고리즘: 주어진 데이터 포인트에 대해 가장 가까운 k개의 이웃을 참조하여 분류(Classification)하거나 회귀(Regression)를 수행1. 새로운 데이터 포인트가 주어지면, 가장 가까운 k개의 이웃을 찾는다2. 다수결(Majority Voting) 원칙을 사용하여 분류 문제를 해결한다3. 평균을 내어 회귀 문제를 해결한다 ※ k값 선택 방법k값은 너무 작거나 크면 성능이 저하될 수 있다. 일반적으로 다음과 같은 방법을 사용하여 최적의 k값을 찾는다- 홀수 선택: 데이터가 2개의 클래스로 나뉘어 있을 경우, 동률을 방지하기 위해 k를 홀수.. 2025. 2. 17. [데이터 분석] 회귀분석(Regression Analysis) ㅁ회귀분석(Regression Analysis): 두 개 이상의 변수 간의 관계를 분석하고, 이를 기반으로 값을 예측하는 통계 기법독립 변수 X(입력)와 종속 변수 y(출력) 간의 관계를 찾고, 이를 수학적 모델로 표현하는 것이 핵심이다독립 변수와 종속 변수 사이의 변화에 따라 "회귀"한다[회귀분석의 종류 5가지]1. 단순 선형 회귀(Simple Linear Regression): 독립 변수(X)가 하나이고, 종속 변수(y)와의 선형 관계를 분석하는 기법e.g. 광고 비용(X)과 제품 판매량(y) 간의 관계 분석2. 다중 선형 회귀(Multiple Linear Regression): 여러 개의 독립 변수(X)가 종속 변수(y)에 영향을 미치는 경우 적용e.g. 주택 가격 예측 (평수, 위치, 연식 등 여.. 2025. 2. 12. [머신러닝] Gradient Boosting Regressor Model(학습 데이터 수가 적을 때 유용) 데이터의 수가 적을 때는 머신러닝 모델 선택이 더욱 중요하다. 데이터가 충분하지 않다면 딥러닝 모델은 과적합(overfitting) 문제가 발생할 가능성이 높으며, 계산 자원이 낭비될 수 있다. 이러한 경우에는 Scikit-learn 라이브러리의 Gradient Boosting Regressor 모델이 효과적인 대안이 될 수 있다. ㅇGradient Boosting Regressor: 부스팅(Boosting) 기법을 사용하여 여러 개의 약한 학습기(weak learners)를 조합해 강력한 학습기(strong learner)를 만들어내는 모델기본적으로 결정 트리(Decision Tree)를 약한 학습기로 사용하며, 각 단계에서 이전 단계의 오류를 보완하면서 점진적으로 모델의 성능을 향상시킨다과적합 제어:.. 2024. 11. 22. 이전 1 다음