EDA는 **Exploratory Data Analysis (탐색적 데이터 분석)**의 약자. 📊
간단히 말하면, 데이터를 본격적으로 모델링하기 전에 데이터의 특징을 이해하고, 패턴·이상치·관계 등을 탐색하는 과정
🔑 EDA의 주요 목적
- 데이터 구조 이해 → 행, 열, 데이터 타입, 결측치 여부 확인
- 기초 통계 확인 → 평균, 중앙값, 분산, 표준편차 등 분포 파악
- 데이터 시각화 → 히스토그램, 박스플롯, 산점도 등을 통해 데이터 패턴 확인
- 관계 탐색 → 변수 간 상관관계, 그룹별 특징 확인
- 이상치/결측치 탐지 → 데이터 정제(Cleaning) 필요성 파악
🔧 EDA에서 자주 쓰는 도구
- Python: pandas, matplotlib, seaborn, plotly
- R: ggplot2, dplyr
- 시각화 도구: Tableau, Power BI
📌 예시 (Python)
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# 데이터 불러오기
df = pd.read_csv("data.csv")
# 1. 기본 구조 확인
print(df.head())
print(df.info())
print(df.describe())
# 2. 결측치 확인
print(df.isnull().sum())
# 3. 시각화 예시
sns.histplot(df['age'], kde=True)
plt.show()
sns.scatterplot(x="height", y="weight", data=df)
plt.show()
👉 쉽게 말하면, **EDA는 데이터 분석에서 "탐색 단계"**로, 데이터를 본격적으로 활용하기 전에 “데이터를 들여다보고, 이해하고, 정리하는 과정”이라고 보면된다
'AI 엔지니어준비' 카테고리의 다른 글
| Loss function 과 Cost function (0) | 2025.08.20 |
|---|---|
| 데이터 테이블에서 표준편차를 볼때 (1) | 2025.08.18 |
| 데이터 전처리 방법 (1) | 2025.08.18 |
| 선형대수학이 머신러닝에 필요한 이유 (7) | 2025.08.18 |
| pandas describe()에 대해 (1) | 2025.08.14 |