먼저 결정 트리에 대해 알아보면
❓ 결정 트리(Decision Tree)가 무엇인가?
✅ 결정 트리는 데이터의 특징을 이용해 '예/아니오'로 답할 수 있는 질문들을 연속적으로 던져가며 예측을 수행하는 지도학습 모델입니다. 🌳 마치 스무고개 게임처럼, 여러 질문을 거쳐 최종 답을 찾아내는 알고리즘이에요.
결정 트리의 구조
결정 트리는 다음과 같은 세 가지 핵심 요소로 이루어져 있습니다.
- 노드(Node): 질문이나 기준이 있는 지점. (예: "온도가 25도보다 높은가?")
- 브랜치(Branch): 질문에 대한 답변. (예: "예" 또는 "아니오")
- 리프(Leaf): 더 이상 질문이 필요 없는 마지막 단계로, 최종 예측 결과가 담겨 있습니다. (예: "자전거 대여량은 많음")
작동 방식
모델은 루트 노드(맨 위)에서 시작해 데이터의 특성에 따라 브랜치를 따라 내려갑니다. 각 노드에서 가장 효과적인 질문을 찾아 데이터를 분할하며, 이 과정을 반복하여 데이터가 최종적으로 분류되거나 값이 예측되는 리프 노드에 도달하게 됩니다.
결정 트리는 **분류(Classification)**와 회귀(Regression) 문제 모두에 사용될 수 있습니다. 🤖
❓ 결정 트리의 장점과 단점에 대해
✅ 결정 트리는 배우기 쉽고 직관적인 모델이지만, 동시에 몇 가지 중요한 약점도 가지고 있습니다. 🌳
장점 👍
- 높은 해석력: 결정 트리는 복잡한 모델과 달리, 나무의 가지와 노드(분기점)를 따라가면 예측이 어떻게 이루어졌는지 직관적으로 이해할 수 있습니다. 마치 순서도(flowchart)처럼 모델의 결정 과정을 눈으로 볼 수 있죠. 📊
- 데이터 전처리 용이: 데이터의 스케일(Scale)을 맞추거나 정규화할 필요가 없습니다. 또한, 숫자형 데이터와 범주형 데이터를 모두 쉽게 처리할 수 있습니다. 🤖
- 비선형 관계 처리: 복잡하고 비선형적인 데이터의 관계를 잘 포착하여 분류하거나 예측할 수 있습니다.
단점 👎
- 과적합(Overfitting) 가능성: 결정 트리는 데이터에 존재하는 모든 패턴을 학습하려고 합니다. 나무의 깊이가 너무 깊어지면 훈련 데이터에만 완벽하게 맞아떨어지고, 실제 예측할 새로운 데이터에서는 성능이 떨어지는 과적합 현상이 자주 발생합니다. 📉
- 불안정성: 훈련 데이터에 아주 작은 변화만 있어도 나무의 구조가 완전히 달라질 수 있습니다. 이는 모델의 예측 결과가 일관되지 않고 불안정하다는 것을 의미합니다. 🌪️
- 지역 최적해 문제: 결정 트리는 매 분할 단계에서 최선의 선택을 합니다 (탐욕적 알고리즘). 이는 전체적으로 보았을 때 가장 좋은 나무 구조가 아닐 수 있습니다.
요약: 결정 트리는 설명이 중요한 문제에 매우 유용하지만, 과적합이라는 가장 큰 약점을 보완하기 위해 랜덤 포레스트와 같은 앙상블 기법으로 확장되어 사용됩니다.
'AI 엔지니어준비' 카테고리의 다른 글
| ❓ LSTM(Long Short-Term Memory) GRU(Gated Recurrent Unit) 사이의 연관 관계에 대해 (0) | 2025.09.05 |
|---|---|
| ❓ 부스팅이란 어떤 앙상블 모델인지?, AdaBoost 이외의 부스팅 모델에는 무엇이 있는지? (1) | 2025.08.28 |
| ❓평온한 데이터에 이상치가 있을 때, 이를 제거하고 학습하는 것이 예측할 데이터에서 이상치는 못 맞추더라도 일반 데이터의 예측을 더 잘하게 되는지, 아니면 이상치도 포함해서 학습해야 이상치도 예측할 수 있는지 ? (1) | 2025.08.27 |
| ❓ 지니불순도(Gini Impurity) 수식을 이해하기 (2) | 2025.08.27 |
| 독립변수 (X) 와 종속변수(y) 를 나누는 이유? (1) | 2025.08.26 |