IQR (Interquartile Range)은 통계학에서 데이터의 중앙 50%가 분포하는 범위를 나타내는 값으로, 데이터의 흩어짐 정도를 파악하는 데 사용되는 지표입니다.
IQR의 개념
IQR은 데이터 전체를 4등분했을 때, **25% 지점(제1사분위수)**부터 **75% 지점(제3사분위수)**까지의 범위를 의미합니다. 이 범위는 데이터의 중앙에 있는 값들만 포함하기 때문에, 극단적인 값(이상치)의 영향을 덜 받는다는 장점이 있습니다.
IQR 계산 방법
IQR은 다음 공식을 사용해 간단하게 계산할 수 있습니다.
- (제1사분위수): 데이터를 정렬했을 때, **25%**에 해당하는 위치의 값.
- (제3사분위수): 데이터를 정렬했을 때, **75%**에 해당하는 위치의 값.
예시:
- 데이터 정렬: 데이터셋 [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]이 있다고 가정해 볼게요.
- 찾기: 전체 데이터의 25% 지점은 30입니다. ()
- 찾기: 전체 데이터의 75% 지점은 80입니다. ()
- 계산: .
이 데이터셋의 IQR은 50이며, 이는 데이터의 중간 50%가 50만큼의 범위에 분포한다는 것을 의미합니다.
IQR과 이상치(Outliers)
IQR은 이상치를 판단하는 기준이 되기도 합니다. 일반적으로 보다 작거나 보다 큰 값은 이상치로 간주합니다. 이 기준은 상자 그림(box plot)에서 수염(whisker)의 끝을 나타내는 데 사용됩니다.
'AI 엔지니어준비' 카테고리의 다른 글
| pandas describe()에 대해 (1) | 2025.08.14 |
|---|---|
| 컴퓨터 관점으로본 5,[5]의 백터 (4) | 2025.08.13 |
| 데이터의 종류 (3) | 2025.08.12 |
| for _, row in tasks.iterrows(): 이구문에 대해서 (3) | 2025.08.11 |
| 파이썬 객체지향 알아야할 점 (3) | 2025.08.08 |