✅ 지니불순도란 무엇인가요?
지니불순도(Gini Impurity)는 **데이터가 얼마나 '섞여 있는지'**를 측정하는 지표입니다. 📊 값이 높을수록 불순도가 높다는 것은 데이터가 여러 클래스로 뒤섞여 있다는 의미이고, 낮을수록 불순도가 낮다는 것은 한 클래스로만 이루어진 '순수한' 상태라는 의미예요. 🫧
이 지표는 의사결정나무(Decision Tree)나 랜덤포레스트(Random Forest)와 같은 모델이 데이터를 나눌 때, **'어떻게 나누어야 가장 효율적으로 불순도를 낮출 수 있는지'**를 결정하는 데 사용돼요.
지니불순도 수식 이해하기
지니불순도의 수식은 다음과 같습니다.
- : 현재 데이터셋을 의미해요. 📦
- : 데이터셋에 있는 클래스(범주)의 개수입니다. (예: '남자', '여자'라면 겠죠)
- : 전체 데이터 중 특정 클래스 에 속하는 데이터의 비율(확률)이에요.
이 수식을 한마디로 요약하면 "1 - (각 클래스별 비율의 제곱의 합)" 입니다.
쉬운 비유로 이해하기
지니불순도 수식은 **"순수도 검사"**와 같아요. 🕵️♂️ 우리가 목표로 하는 '순수한 상태'는 불순도(섞인 정도)가 0인 상태입니다.
- 1이라는 숫자는 **'완벽하게 섞인 상태'**를 의미해요. (섞였기 때문에 불순도가 100%라고 가정)
- ****는 **'얼마나 순수한가'**를 계산하는 부분이에요.
- 만약 딸기만 있는 바구니가 있다면, 딸기의 비율은 100%(1)이고, 다른 과일은 0%겠죠. 🍓 이 되므로, 순수도(1)를 완벽하게 얻게 됩니다.
- 만약 **딸기(50%)와 바나나(50%)**가 섞인 바구니라면, 🍌 가 돼요. 순수도(0.5)가 절반밖에 안 되네요!
지니불순도 수식은 이 원리를 그대로 적용합니다.
- 완벽하게 순수한 바구니 (딸기 100%): 불순도 = . 불순도가 0이 되므로, 모델은 더 이상 이 바구니를 나눌 필요가 없다고 판단해요. 👍
- 섞인 바구니 (딸기 50%, 바나나 50%): 불순도 = . 불순도가 있으므로, 모델은 이 바구니를 나누는 방법을 계속 찾게 됩니다. 🧐
'AI 엔지니어준비' 카테고리의 다른 글
| ❓ 결정 트리의 장점과 단점에 대해 (4) | 2025.08.28 |
|---|---|
| ❓평온한 데이터에 이상치가 있을 때, 이를 제거하고 학습하는 것이 예측할 데이터에서 이상치는 못 맞추더라도 일반 데이터의 예측을 더 잘하게 되는지, 아니면 이상치도 포함해서 학습해야 이상치도 예측할 수 있는지 ? (1) | 2025.08.27 |
| 독립변수 (X) 와 종속변수(y) 를 나누는 이유? (1) | 2025.08.26 |
| 왜 train 데이터만 수정하지 않고 test 데이터도 수정할까? (0) | 2025.08.26 |
| ❓경사 하강법이란? (0) | 2025.08.22 |