지도 학습과 비지도 학습은 머신러닝의 가장 큰 두 가지 분류이며, 데이터에 정답(레이블)이 있는가 없는가에 따라 구분됩니다. 🧠
지도 학습 (Supervised Learning) 👨🏫
정답이 있는 데이터를 학습하는 방식입니다. 모델은 입력 데이터와 함께 제공된 정답을 보고 학습하며, 이를 통해 새로운 데이터를 예측합니다.
- 학습 과정: 모델에게 "이 사진은 강아지야" 또는 "이 집의 가격은 5억이야" 와 같이 정답을 알려주면서 학습시킵니다.
- 목표: 모델이 새로운 입력 데이터에 대해 정확한 정답을 예측하도록 하는 것입니다.
- 문제 유형:
- 분류 (Classification): 데이터를 미리 정해진 범주로 나누는 것 (예: 스팸 메일 분류).
- 회귀 (Regression): 연속된 값을 예측하는 것 (예: 집값 예측).
비지도 학습 (Unsupervised Learning) 🕵️♀️
정답이 없는 데이터를 학습하는 방식입니다. 모델은 정답 없이 데이터 자체의 구조나 패턴을 파악하여 규칙을 찾아냅니다.
- 학습 과정: 모델에게 "이 데이터들을 비슷한 것끼리 묶어봐"라고 지시하며, 모델 스스로 숨겨진 패턴을 발견하도록 합니다.
- 목표: 데이터의 구조를 이해하거나, 새로운 통찰력을 얻는 것입니다.
- 문제 유형:
- 군집화 (Clustering): 비슷한 데이터끼리 그룹으로 묶는 것 (예: 고객 유형 분류).
- 차원 축소 (Dimensionality Reduction): 데이터의 특성을 줄여서 핵심적인 정보를 유지하는 것.
지도 학습 (Supervised Learning) 예시 👨🏫
정답(레이블)이 있는 데이터를 사용하여 학습하는 방식입니다.
- 스팸 메일 분류: 이메일 내용과 함께 '스팸' 또는 '스팸 아님'이라는 정답(레이블)이 있는 데이터를 학습합니다. 📧
- 집값 예측: 면적, 방 개수, 위치 등과 함께 실제 집값이라는 정답(레이블)이 있는 데이터를 학습하여 새로운 집의 가격을 예측합니다. 🏡
- 필기체 문자 인식: 손으로 쓴 글자 이미지와 함께 'A', 'B', 'C'와 같은 **정답(레이블)**이 있는 데이터를 학습하여 새로운 필기체 글자를 식별합니다. ✍️
- 의료 이미지 진단: X-레이 사진과 함께 '암', '정상'과 같은 **진단 결과(레이블)**가 있는 데이터를 학습하여 질병을 예측합니다. 🔬
- 주가 예측: 과거의 주가 데이터와 함께 미래의 주가(정답) 데이터를 학습하여 주식 시장의 동향을 예측합니다. 📈
비지도 학습 (Unsupervised Learning) 예시 🕵️♀️
정답이 없는 데이터를 사용하여 데이터 자체의 숨겨진 패턴을 찾는 방식입니다.
- 고객 세분화 (Customer Segmentation): 고객의 구매 이력, 검색 기록 등의 정보만 가지고 유사한 고객들끼리 그룹을 만듭니다. '충성 고객', '할인 선호 고객' 등 고객 유형을 스스로 찾아냅니다. 🧑🤝🧑
- 뉴스 기사 군집화: 수많은 뉴스 기사들의 내용을 분석하여, 정답(주제)이 주어지지 않았음에도 '정치', '경제', '스포츠' 등 비슷한 주제의 기사들끼리 자동으로 묶어줍니다. 📰
- 이상 감지 (Anomaly Detection): 정상적인 신용카드 거래 패턴이 주어졌을 때, 평소와 다른 비정상적인 거래를 찾아냅니다. 사기 거래를 탐지하는 데 사용됩니다. 🚨
- 추천 시스템 (Recommender System): 사용자의 시청 기록, 구매 기록 등을 분석하여 취향이 비슷한 사용자를 찾고, 그들이 좋아할 만한 콘텐츠나 상품을 추천합니다. 🍿
- 데이터 압축 (Dimensionality Reduction): 고차원의 복잡한 데이터를 중요한 정보는 유지하면서 저차원으로 줄입니다. 이는 시각화를 용이하게 하거나 모델의 성능을 향상시키는 데 도움이 됩니다. 📊
가장 큰 차이점은 바로 '잘못된' 데이터의 정의에 있습니다.
지도 학습 vs. 비지도 학습
- 지도 학습 👨🏫: 잘못된 데이터에 대해 **명확한 정답(레이블)**을 가지고 학습합니다.
- 예시: '정상' 거래 데이터와 함께 '사기' 거래 데이터가 모두 포함된 데이터셋을 사용하여, 모델이 사기 거래의 특징을 학습합니다. 모델은 '사기'와 '정상'을 구분하도록 명시적으로 훈련됩니다.
- 비지도 학습 🕵️♀️: 잘못된 데이터에 대한 정답(레이블)이 없습니다. 모델은 오직 '정상' 데이터만으로 학습하며, 정상 패턴에서 벗어나는 데이터를 '이상치'로 간주합니다.
- 예시: 모델은 정상적인 신용카드 거래 패턴(평소 사용 시간, 장소, 금액 등)만을 학습합니다. 이후에 평소와 다른 패턴(새벽 3시에 해외에서 고액 결제)이 나타나면, 이를 **'정상 패턴과 다르다'**고 판단하여 이상치로 분류합니다.
- 이때 모델은 이 데이터가 '사기'라고 직접적으로 학습하지 않았고, 단지 **'정상 범주에서 벗어난다'**는 것을 발견한 것입니다.
따라서 비지도 학습의 이상 감지는 '무엇이 잘못된지'를 모르고도, '정상적이지 않다'는 것을 스스로 찾아내는 방식이라고 할 수 있습니다. ✅
'AI 엔지니어준비' 카테고리의 다른 글
| ❓ 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요. (0) | 2025.08.21 |
|---|---|
| 손실 함수(loss function)란 무엇이며, 왜 중요한가요? (0) | 2025.08.21 |
| 머신러닝을 위한 경사 하강 (0) | 2025.08.20 |
| Loss function 과 Cost function (0) | 2025.08.20 |
| 데이터 테이블에서 표준편차를 볼때 (1) | 2025.08.18 |