중앙값은 정렬된 데이터세트의 중간 값입니다. 이는 평균 및 최빈값과 함께 중심 경향의 세 가지 주요 측정값 중 하나이며, 데이터에 이상치 또는 편향된 값이 포함된 경우 특히 유용합니다.
중앙값이란 무엇입니까?
중앙값은 데이터 세트를 정확히 절반으로 나눕니다. 즉, 값의 50%가 중앙값 아래에 있고 50%가 중앙값 위에 위치합니다. 평균과 달리 중앙값은 극단값의 영향을 받지 않습니다.
예: $50,000의 중간 급여는 수백만 달러를 버는 소수의 임원이 뽑아낸 $90,000의 평균 급여보다 일반적인 직원에 대해 더 많은 것을 알려줍니다.
중앙값을 찾는 방법: 홀수 값
1단계: 모든 값을 오름차순(가장 작은 것부터 큰 것까지)으로 정렬합니다.
2단계: 중간 값, 즉 양쪽에 동일한 수의 값이 있는 값을 찾습니다.
예: 데이터세트: 7, 3, 5, 1, 9
- 정렬: 1, 3, 5, 7, 9
- 중간값은 5(아래 2개, 위 2개)
중앙값은 5입니다.
중앙값을 찾는 방법: 짝수 값
짝수 개의 값이 있는 경우 중간 값이 하나도 없으며 두 개가 있습니다. 중앙값은 두 중간 값의 평균입니다.
1단계: 모든 값을 오름차순으로 정렬합니다.
2단계: 두 개의 중간 값을 식별합니다.
3단계: 이를 모두 더한 후 2로 나눕니다.
예: 데이터세트: 4, 8, 6, 2, 10, 3
- 정렬: 2, 3, 4, 6, 8, 10
- 두 개의 중간 값은 4와 6입니다.
- 중앙값 = (4 + 6) / 2 = 5
중앙값은 5입니다.
중간 위치 찾기
n 값으로 구성된 데이터세트의 경우 중간 위치는 다음과 같습니다.
- 홀수 n: 위치 = (n + 1) / 2
- 짝수 n: 평균 게재순위 n/2 및 (n/2) + 1
| n 값 | 중간 위치 |
|---|---|
| 5 | 위치 3 |
| 7 | 위치 4 |
| 10 | 5위와 6위의 평균 |
| 12 | 6위와 7위의 평균 |
실제 사례: 더 큰 데이터 세트
데이터세트: 14, 23, 8, 31, 17, 5, 29, 11, 20, 18, 25, 9
1단계: 개수: 12개 값(짝수)
2단계: 정렬: 5, 8, 9, 11, 14, 17, 18, 20, 23, 25, 29, 31
3단계: 중간 위치는 6번째와 7번째 값 = 17과 18입니다.
4단계: 중앙값 = (17 + 18) / 2 = 17.5
중앙값 대 평균: 어느 것을 사용해야 합니까?
| 상황 | 더 나은 측정 |
|---|---|
| 데이터에 이상치가 있습니다 | 중앙값 |
| 데이터가 왜곡되었습니다(예: 소득). | 중앙값 |
| 대칭 분포 | 둘 중 하나(평균이 더 정확함) |
| 범주형 또는 순서형 데이터 | 중앙값 |
| 추가 계산에 사용해야 함 | 평균 |
경험 법칙: 평균과 중앙값이 크게 다르면 데이터가 왜곡된 것입니다. 중앙값을 보다 대표적인 값으로 보고합니다.
그룹화된 데이터의 중앙값
데이터가 빈도표나 그룹화된 구간으로 표시되는 경우 보간법을 사용하여 중앙값을 추정할 수 있습니다.
예:
| 점수 | 빈도 | 누적 빈도 |
|---|---|---|
| 0~20 | 3 | 3 |
| 21~40 | 7 | 10 |
| 41~60 | 12 | 22 |
| 61~80 | 8 | 30 |
| 81~100 | 5 | 35 |
총계: 35개 값. 중앙값은 18번째 값입니다(위치 = (35+1)/2 = 18).
18번째 값은 41~60 그룹에 속합니다. 이전에는 10이었던 누적 빈도가 이 그룹에서 22에 도달합니다.
Median ≈ L + [(n/2 − F) / f] × h
어디:
- L = 중앙값 하위 경계 = 41
- n = 총 빈도 = 35
- F = 중앙값 클래스 이전의 누적 빈도 = 10
- f = 중간 클래스의 빈도 = 12
- h = 클래스 너비 = 20
Median ≈ 41 + [(17.5 − 10) / 12] × 20
≈ 41 + [7.5 / 12] × 20
≈ 41 + 12.5
≈ 53.5
가중 중앙값
데이터 포인트의 가중치나 중요도가 다른 경우 누적 가중치가 50%에 도달하는 값인 가중치 중앙값을 사용합니다.
실제 사례
주택 가격: 도시의 중간 주택 가격은 일부 고급 부동산에 의해 왜곡될 수 있는 평균보다 '전형적인' 주택을 더 잘 나타냅니다.
시험 점수: 대부분의 학생이 60~70점을 받았지만 소수의 학생이 100점을 받은 경우 중앙값이 평균보다 더 많은 정보를 제공합니다.
응답 시간: 웹 성능에서 평균 응답 시간은 일반적인 사용자가 경험하는 수준을 보여주는 반면, 가끔 느린 요청으로 인해 평균이 벗어날 수 있습니다.
흔히 저지르는 실수
먼저 정렬하지 않음 — 중간 값을 찾기 전에 데이터를 정렬해야 합니다.
위치에서 하나씩 차이 — 9개 값의 경우 중앙값은 위치 4.5가 아닌 위치 5에 있습니다.
짝수 데이터세트에 평균 사용 — 짝수 개의 값에 대해 항상 두 개의 중간 값의 평균을 구합니다.