✅ 🤔 이 고민은 모델을 만들 때 마주하는 가장 중요한 결정 중 하나이며, 정답은 **'어떤 목표를 가졌는가'**에 달려 있습니다. 두 가지 가설 모두 일리가 있습니다.
두 가지 가설에 대한 설명
가설 1: 이상치를 제거하고 학습한다.
- 장점: 이상치를 '노이즈'로 간주하고 제거하면, 모델은 나머지 일반 데이터의 핵심 패턴을 더 명확하게 학습합니다. 따라서 대부분의 일반적인 데이터에 대한 예측 정확도가 매우 높아집니다. 💯
- 단점: 모델이 이상치를 아예 본 적이 없기 때문에, 예측할 데이터에 이상치가 나타나면 엉뚱하고 예측 불가능한 결과를 내놓을 수 있습니다.
가설 2: 이상치도 포함해서 학습한다.
- 장점: 모델이 이상치까지 포함한 전체 데이터의 분포를 학습합니다. 덕분에 예측할 데이터에 이상치가 나타나더라도, 완전히 엉뚱한 값보다는 어느 정도 납득할 만한 예측값을 내놓을 가능성이 높아집니다. 📈
- 단점: 모델이 소수의 이상치에 너무 집중하여, 다수의 일반 데이터에 대한 예측 성능이 오히려 떨어질 수 있습니다. 모델이 이상치에 과적합될 위험이 커지는 거죠.
최종적인 판단 기준
이상치를 제거할지 말지는 문제의 성격에 따라 결정해야 합니다.
- ✅ 이상치를 제거하는 경우:
- 목표: 대부분의 일반적인 데이터에 대한 정확한 예측이 가장 중요할 때.
- 예시: 정상적인 고객의 구매 금액을 예측하는 경우, 소수의 비정상적인 초고가 구매는 모델의 학습을 방해하는 '노이즈'로 간주하고 제거할 수 있습니다.
- ✅ 이상치를 포함하는 경우:
- 목표: 예측의 견고함이 중요하고, 이상치 자체가 중요한 정보일 때.
- 예시: 신용카드 사기 탐지 모델을 만든다고 가정해볼게요. 사기 거래 자체가 일반적인 패턴과는 다른 '이상치'입니다. 이런 경우 이상치를 제거하면 모델이 정작 찾아내야 할 사기 패턴을 학습하지 못하게 됩니다.
쉬운 비유: 이상치를 제거하는 것은 가장 흔하게 출제되는 문제만 집중적으로 공부하는 것과 같아요. 📚 대부분의 문제에서는 좋은 점수를 받겠지만, 예상치 못한 '킬러 문항'이 나오면 당황할 수밖에 없습니다. 반면 이상치를 포함하는 것은 모든 유형의 문제를 골고루 공부하는 것과 같습니다. 📖 주된 문제에 대한 점수는 조금 낮더라도, 어떤 문제가 나오든 대비할 수 있는 거죠.
'AI 엔지니어준비' 카테고리의 다른 글
| ❓ 부스팅이란 어떤 앙상블 모델인지?, AdaBoost 이외의 부스팅 모델에는 무엇이 있는지? (1) | 2025.08.28 |
|---|---|
| ❓ 결정 트리의 장점과 단점에 대해 (4) | 2025.08.28 |
| ❓ 지니불순도(Gini Impurity) 수식을 이해하기 (2) | 2025.08.27 |
| 독립변수 (X) 와 종속변수(y) 를 나누는 이유? (1) | 2025.08.26 |
| 왜 train 데이터만 수정하지 않고 test 데이터도 수정할까? (0) | 2025.08.26 |