중앙값은 정렬된 데이터세트의 중간 값입니다. 이는 평균 및 최빈값과 함께 중심 경향의 세 가지 주요 측정값 중 하나이며, 데이터에 이상치 또는 편향된 값이 포함된 경우 특히 유용합니다.

중앙값이란 무엇입니까?

중앙값은 데이터 세트를 정확히 절반으로 나눕니다. 즉, 값의 50%가 중앙값 아래에 있고 50%가 중앙값 위에 위치합니다. 평균과 달리 중앙값은 극단값의 영향을 받지 않습니다.

예: $50,000의 중간 급여는 수백만 달러를 버는 소수의 임원이 뽑아낸 $90,000의 평균 급여보다 일반적인 직원에 대해 더 많은 것을 알려줍니다.

중앙값을 찾는 방법: 홀수 값

1단계: 모든 값을 오름차순(가장 작은 것부터 큰 것까지)으로 정렬합니다.

2단계: 중간 값, 즉 양쪽에 동일한 수의 값이 있는 값을 찾습니다.

예: 데이터세트: 7, 3, 5, 1, 9

  1. 정렬: 1, 3, 5, 7, 9
  2. 중간값은 5(아래 2개, 위 2개)

중앙값은 5입니다.

중앙값을 찾는 방법: 짝수 값

짝수 개의 값이 있는 경우 중간 값이 하나도 없으며 두 개가 있습니다. 중앙값은 두 중간 값의 평균입니다.

1단계: 모든 값을 오름차순으로 정렬합니다.

2단계: 두 개의 중간 값을 식별합니다.

3단계: 이를 모두 더한 후 2로 나눕니다.

예: 데이터세트: 4, 8, 6, 2, 10, 3

  1. 정렬: 2, 3, 4, 6, 8, 10
  2. 두 개의 중간 값은 4와 6입니다.
  3. 중앙값 = (4 + 6) / 2 = 5

중앙값은 5입니다.

중간 위치 찾기

n 값으로 구성된 데이터세트의 경우 중간 위치는 다음과 같습니다.

  • 홀수 n: 위치 = (n + 1) / 2
  • 짝수 n: 평균 게재순위 n/2 및 (n/2) + 1
n 값 중간 위치
5 위치 3
7 위치 4
10 5위와 6위의 평균
12 6위와 7위의 평균

실제 사례: 더 큰 데이터 세트

데이터세트: 14, 23, 8, 31, 17, 5, 29, 11, 20, 18, 25, 9

1단계: 개수: 12개 값(짝수)

2단계: 정렬: 5, 8, 9, 11, 14, 17, 18, 20, 23, 25, 29, 31

3단계: 중간 위치는 6번째와 7번째 값 = 17과 18입니다.

4단계: 중앙값 = (17 + 18) / 2 = 17.5

중앙값 대 평균: 어느 것을 사용해야 합니까?

상황 더 나은 측정
데이터에 이상치가 있습니다 중앙값
데이터가 왜곡되었습니다(예: 소득). 중앙값
대칭 분포 둘 중 하나(평균이 더 정확함)
범주형 또는 순서형 데이터 중앙값
추가 계산에 사용해야 함 평균

경험 법칙: 평균과 중앙값이 크게 다르면 데이터가 왜곡된 것입니다. 중앙값을 보다 대표적인 값으로 보고합니다.

그룹화된 데이터의 중앙값

데이터가 빈도표나 그룹화된 구간으로 표시되는 경우 보간법을 사용하여 중앙값을 추정할 수 있습니다.

예:

점수 빈도 누적 빈도
0~20 3 3
21~40 7 10
41~60 12 22
61~80 8 30
81~100 5 35

총계: 35개 값. 중앙값은 18번째 값입니다(위치 = (35+1)/2 = 18).

18번째 값은 41~60 그룹에 속합니다. 이전에는 10이었던 누적 빈도가 이 그룹에서 22에 도달합니다.

Median ≈ L + [(n/2 − F) / f] × h

어디:

  • L = 중앙값 하위 경계 = 41
  • n = 총 빈도 = 35
  • F = 중앙값 클래스 이전의 누적 빈도 = 10
  • f = 중간 클래스의 빈도 = 12
  • h = 클래스 너비 = 20
Median ≈ 41 + [(17.5 − 10) / 12] × 20
        ≈ 41 + [7.5 / 12] × 20
        ≈ 41 + 12.5
        ≈ 53.5

가중 중앙값

데이터 포인트의 가중치나 중요도가 다른 경우 누적 가중치가 50%에 도달하는 값인 가중치 중앙값을 사용합니다.

실제 사례

주택 가격: 도시의 중간 주택 가격은 일부 고급 부동산에 의해 왜곡될 수 있는 평균보다 '전형적인' 주택을 더 잘 나타냅니다.

시험 점수: 대부분의 학생이 60~70점을 받았지만 소수의 학생이 100점을 받은 경우 중앙값이 평균보다 더 많은 정보를 제공합니다.

응답 시간: 웹 성능에서 평균 응답 시간은 일반적인 사용자가 경험하는 수준을 보여주는 반면, 가끔 느린 요청으로 인해 평균이 벗어날 수 있습니다.

흔히 저지르는 실수

먼저 정렬하지 않음 — 중간 값을 찾기 전에 데이터를 정렬해야 합니다.

위치에서 하나씩 차이 — 9개 값의 경우 중앙값은 위치 4.5가 아닌 위치 5에 있습니다.

짝수 데이터세트에 평균 사용 — 짝수 개의 값에 대해 항상 두 개의 중간 값의 평균을 구합니다.


다음 읽기