✅ 부스팅은 여러 개의 모델을 순차적으로 학습시키며, 이전 모델의 단점을 보완해 나가는 앙상블 기법입니다. 🚀 잘못 예측한 데이터에 더 큰 가중치를 부여함으로써, 약한 학습기(weak learner)들을 모아 강력한 최종 모델을 만듭니다.
AdaBoost 외의 주요 부스팅 모델
1. GBM (Gradient Boosting Machine)
- 특징: 이전 모델의 예측 오류를 **'잔차(residual)'**로 정의하고, 이 잔차를 예측하는 새로운 모델을 순차적으로 추가하는 방식입니다. AdaBoost가 데이터에 가중치를 부여하는 방식과 달리, GBM은 잔차를 학습하는 방식으로 오류를 보정합니다.
- 장점: AdaBoost보다 더 일반화된 방식으로 강력한 예측 성능을 제공하며, 다양한 손실 함수(Loss function)를 사용할 수 있어 유연성이 높습니다.
- 단점: 학습 속도가 느리고, 과적합에 취약하다는 단점이 있습니다. 또한, 하이퍼파라미터 튜닝이 복잡합니다.
2. XGBoost (eXtreme Gradient Boosting)
- 특징: GBM을 개선한 모델로, 속도, 성능, 유연성을 모두 갖춘 모델입니다. GBM의 느린 속도를 병렬 처리로 해결했고, 과적합을 방지하는 규제 기능을 추가했습니다.
- 장점: 뛰어난 예측 성능으로 데이터 분석 경진대회에서 자주 우승합니다. GBM보다 빠른 속도와 자체 교차 검증, 결측치 처리 기능 등 편리한 기능들을 제공합니다.
- 단점: 여전히 하이퍼파라미터 튜닝이 중요하며, 너무 많은 데이터를 사용할 경우 메모리 사용량이 높아질 수 있습니다.
3. LightGBM (Light Gradient Boosting Machine)
- 특징: 마이크로소프트에서 개발한 모델로, XGBoost보다 훨씬 빠른 학습 속도와 적은 메모리 사용량이 강점입니다. 기존 부스팅 모델들이 **균형 트리 분할(Level-wise)**을 사용하는 것과 달리, 리프 중심 트리 분할(Leaf-wise) 방식을 사용하여 효율성을 극대화합니다.
- 장점: 대용량 데이터셋에 특히 효율적이며, 학습 시간이 매우 빠릅니다. 카테고리형 변수를 자동으로 처리하는 기능도 있습니다.
- 단점: 적은 양의 데이터(보통 10,000건 이하)에서는 과적합에 취약할 수 있습니다.
4. CatBoost (Categorical Boosting)
- 특징: Yandex에서 개발한 모델로, 이름처럼 범주형(Categorical) 변수 처리에 특화되어 있습니다. 범주형 변수를 원-핫 인코딩 같은 별도의 전처리 없이도 효과적으로 처리합니다.
- 장점: 범주형 변수가 많은 데이터에서 특히 뛰어난 성능을 보입니다. 하이퍼파라미터 튜닝에 크게 신경 쓰지 않아도 기본 성능이 좋다는 장점도 있습니다.
- 단점: 희소 행렬(Sparse Matrix) 데이터에는 취약하며, 숫자형 변수가 많은 데이터에서는 LightGBM보다 느릴 수 있습니다.
'AI 엔지니어준비' 카테고리의 다른 글
| ❓ 은닉 상태(Hidden State)란? (0) | 2025.09.05 |
|---|---|
| ❓ LSTM(Long Short-Term Memory) GRU(Gated Recurrent Unit) 사이의 연관 관계에 대해 (0) | 2025.09.05 |
| ❓ 결정 트리의 장점과 단점에 대해 (4) | 2025.08.28 |
| ❓평온한 데이터에 이상치가 있을 때, 이를 제거하고 학습하는 것이 예측할 데이터에서 이상치는 못 맞추더라도 일반 데이터의 예측을 더 잘하게 되는지, 아니면 이상치도 포함해서 학습해야 이상치도 예측할 수 있는지 ? (1) | 2025.08.27 |
| ❓ 지니불순도(Gini Impurity) 수식을 이해하기 (2) | 2025.08.27 |