먼저 표준편차는
데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타냅니다.
표준편차가 높을수록 데이터의 변동성이 크고, 표준편차가 낮을수록 데이터가 일관적입니다.
데이터의 숫자의 크기에 따라 다르지만 0에 가까울수록 표준편차가 낮다고 보면됩니

표준편차가 낮은 그래프 📉
데이터가 평균 주위에 촘촘하게 모여 있어, 종 모양의 곡선이 좁고 뾰족합니다.
표준편차가 높은 그래프 📈
데이터가 평균에서 넓게 퍼져 있어, 종 모양의 곡선이 넓고 완만합니다.
표준편차를 구하는 방법
표준편차 계산 단계
- 평균(Mean) 계산: 모든 데이터 값을 더한 후 데이터의 개수로 나눕니다. 📏
- 예시: [1, 2, 3]의 평균은 (1+2+3)/3 = 2입니다.
- 편차(Deviation) 계산: 각 데이터 값에서 평균을 뺍니다.
- 예시: 1-2=-1, 2-2=0, 3-2=1
- 분산(Variance) 계산: 편차를 제곱하여 모두 더한 후, 데이터의 개수()로 나눕니다. 편차를 제곱하는 이유는 음수와 양수가 상쇄되는 것을 막기 위함입니다.
- 분산 공식:
- 예시:
- 표준편차(Standard Deviation) 계산: 분산 값에 제곱근을 씌웁니다.
- 표준편차 공식:
- 예시:
- 간단하게 설명하면
- 평균을 구한다. 🔢
- 모든 항목에서 평균을 뺀다. (편차 계산) ➖
- 그 결과를 제곱한다. (분산 계산을 위해) ✖️
- 제곱한 값들을 모두 더한 뒤, 데이터의 개수로 나눈다. (이것이 분산입니다.) ➗
- 마지막으로, 그 결과값에 '제곱근'을 씌운다. (이것이 표준편차입니다.) √
새로운 의문점이 들었다
한행은 1,2,3, 같은 1의자리에서만 사용하고 한행은 10억대를 사용해 하지만 두 행모두 데이터의 퍼짐이 똑같아 그럼 표준편차를 구했을때 수치가 차이가 나는지 궁금해졌다.
데이터의 수치 자체가 크면, 표준편차도 커질 수밖에 없습니다. 😃
왜 그런가요?
표준편차는 데이터와 평균 사이의 절대적인 거리를 측정합니다.
- 작은 숫자: [1, 2, 3]의 평균은 2입니다. 각 데이터와 평균의 차이(편차)는 -1, 0, 1로 작습니다.
- 큰 숫자: [10억, 10억 1, 10억 2]의 평균은 10억 1입니다. 각 데이터와 평균의 차이(편차)는 -1, 0, 1로 똑같지만, 이 데이터들의 절대적인 값 자체가 엄청나게 큽니다.
표준편차를 계산할 때 이 편차들을 제곱해서 더하는데, 데이터의 절대적인 크기가 클수록 편차를 제곱한 값도 비례하여 커집니다. 결국 최종적으로 계산되는 표준편차 값도 커질 수밖에 없습니다.
표준편차로 데이터의 퍼짐도 알 수 있지만 이상치를 탐지하기도 유용할거 같다
'AI 엔지니어준비' 카테고리의 다른 글
| 머신러닝을 위한 경사 하강 (0) | 2025.08.20 |
|---|---|
| Loss function 과 Cost function (0) | 2025.08.20 |
| EDA란? (1) | 2025.08.18 |
| 데이터 전처리 방법 (1) | 2025.08.18 |
| 선형대수학이 머신러닝에 필요한 이유 (7) | 2025.08.18 |