네, 맞습니다. df.describe() 결과에서 나오는 값들은 다음과 같습니다.
- count: 결측치를 제외한 유효한 데이터의 개수
- mean: 데이터의 평균
- std: 데이터의 표준 편차
- min: 데이터의 최솟값
- max: 데이터의 최댓값
- 25%, 50%, 75%: 각각 데이터의 25번째, 50번째(중앙값), 75번째 백분위수를 의미하며, 이는 Q1, Q2, Q3와 같습니다.
df.describe() 결과의 상세 설명
df.describe()는 데이터프레임 내의 숫자형 데이터에 대한 주요 통계 정보를 요약하여 보여줍니다.
표준 편차 (std)
**표준 편차(Standard Deviation)**는 데이터가 평균으로부터 얼마나 퍼져 있는지를 나타내는 척도입니다. 이 값이 작을수록 데이터가 평균 주변에 밀집되어 있고, 클수록 데이터가 평균에서 넓게 퍼져 있다는 것을 의미합니다.
백분위수 (Quantile)
- 25% (Q1): 데이터를 오름차순으로 정렬했을 때, **하위 25%**에 해당하는 값입니다.
- 50% (Q2): 데이터를 오름차순으로 정렬했을 때, **하위 50%**에 해당하는 값으로, **중앙값(Median)**과 같습니다.
- 75% (Q3): 데이터를 오름차순으로 정렬했을 때, **하위 75%**에 해당하는 값입니다.
이 값들은 데이터의 분포와 특이값을 파악하는 데 매우 유용합니다. 예를 들어, 중앙값(50%)과 평균(mean)이 크게 차이 나면 데이터에 편향(skew)이 있거나 특이값(outlier)이 존재할 가능성이 높다고 추론할 수 있습니다.
'AI 엔지니어준비' 카테고리의 다른 글
| 데이터 전처리 방법 (1) | 2025.08.18 |
|---|---|
| 선형대수학이 머신러닝에 필요한 이유 (7) | 2025.08.18 |
| 컴퓨터 관점으로본 5,[5]의 백터 (4) | 2025.08.13 |
| IQR (Interquartile Range) 이란? (3) | 2025.08.13 |
| 데이터의 종류 (3) | 2025.08.12 |