Y랑 X를 나누는 이유는 '문제'와 '정답'을 분리하여 모델에게 학습시키기 위함입니다.
머신러닝에서:
- 독립 변수 (X_train): 모델에게 주어지는 '문제' 또는 **'단서'**들입니다. 자전거 대여량 예측 문제에서는 weather, temp, hour 등 count에 영향을 미칠 것이라고 예상되는 모든 정보들을 의미합니다.
- 종속 변수 (y_train): 모델이 예측해야 할 **'정답'**입니다. 이 문제에서는 우리가 예측하려는 자전거 대여량인 count가 되겠죠.
쉬운 비유로 이해하기
학생이 시험공부를 한다고 생각해 봅시다.
- 문제집 (X_train): 학생이 풀어야 할 연습 문제들입니다. 문제집에는 답이 가려져 있거나, 문제만 나열되어 있습니다.
- 정답지 (y_train): 문제집에 대한 정답들입니다. 학생은 문제를 풀고 정답지를 보면서 자신의 답이 맞는지 틀린지 확인하고, 왜 틀렸는지 배우게 됩니다.
모델 학습 과정은 이와 같습니다. 모델은 X_train이라는 문제지를 보고, 스스로 답을 예측합니다. 그리고 y_train이라는 정답지를 보면서 자신의 예측이 얼마나 정확했는지, 어떤 부분에서 오류가 있었는지 '학습'합니다. 이 과정을 반복하면서 모델은 '특정 조건(X)일 때 정답(Y)은 무엇이다'라는 규칙을 스스로 터득하게 되는 것입니다.
만약 문제집과 정답지가 뒤섞여 있다면, 학생은 굳이 문제를 풀 필요 없이 정답을 외워버릴 겁니다. 모델도 마찬가지입니다. count를 X_train에 그대로 두면, 모델은 temp와 weather 같은 단서를 통해 예측하는 법을 배우는 대신, 그냥 count 값을 외워서 출력하는 '부정행위'를 하게 됩니다.
따라서 **문제(X)**와 **정답(Y)**을 명확히 분리하는 것은 모델이 올바른 규칙을 학습하도록 유도하는 가장 기본적인 과정입니다.
'AI 엔지니어준비' 카테고리의 다른 글
| ❓평온한 데이터에 이상치가 있을 때, 이를 제거하고 학습하는 것이 예측할 데이터에서 이상치는 못 맞추더라도 일반 데이터의 예측을 더 잘하게 되는지, 아니면 이상치도 포함해서 학습해야 이상치도 예측할 수 있는지 ? (1) | 2025.08.27 |
|---|---|
| ❓ 지니불순도(Gini Impurity) 수식을 이해하기 (2) | 2025.08.27 |
| 왜 train 데이터만 수정하지 않고 test 데이터도 수정할까? (0) | 2025.08.26 |
| ❓경사 하강법이란? (0) | 2025.08.22 |
| ❓ 시그모이드는 뭐야? (0) | 2025.08.22 |