분산은 숫자 집합이 평균에서 얼마나 퍼져 있는지를 측정합니다. 이는 통계에서 가장 중요한 개념 중 하나입니다. 금융에서는 투자 위험을 측정하고 과학에서는 실험 일관성을 평가하며 일상적인 데이터 분석에 사용됩니다.
분산이란 무엇입니까?
분산은 평균과의 차이를 제곱한 값의 평균입니다. 분산이 낮다는 것은 데이터 포인트가 평균을 중심으로 밀집되어 있음을 의미합니다. 분산이 크다는 것은 광범위하게 퍼져 있다는 것을 의미합니다.
두 가지 유형이 있습니다:
- 모집단 분산(σ²) — 전체 모집단에 대한 데이터가 있는 경우 사용됩니다.
- 표본 분산(s²) — 데이터가 더 큰 모집단의 표본일 때 사용됩니다.
실제로는 거의 항상 표본 분산을 사용합니다.
분산 공식
인구 분산
σ² = Σ(xᵢ - μ)² / N
어디:
- xᵢ = 각 데이터 포인트
- μ = 모집단 평균
- N = 데이터 포인트 수
표본분산
s² = Σ(xᵢ - x̄)² / (n - 1)
어디:
- x̄ = 표본 평균
- n - 1 = 자유도(베셀 보정)
표본 분산의 CODE0은 표본이 모집단의 실제 확산을 과소평가하는 경향이 있다는 사실을 수정합니다.
단계별 예
데이터세트: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5
1단계: 평균 계산
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
2단계: 각 값에서 평균을 빼고 결과를 제곱합니다
| 값 | 가치 - 평균 | (값 - 평균)² |
|---|---|---|
| 4 | 4 − 5.2 = −1.2 | 1.44 |
| 8 | 8 − 5.2 = 2.8 | 7.84 |
| 6 | 6 − 5.2 = 0.8 | 0.64 |
| 5 | 5 − 5.2 = −0.2 | 0.04 |
| 3 | 3 − 5.2 = −2.2 | 4.84 |
| 2 | 2 − 5.2 = −3.2 | 10.24 |
| 8 | 8 − 5.2 = 2.8 | 7.84 |
| 9 | 9 − 5.2 = 3.8 | 14.44 |
| 2 | 2 − 5.2 = −3.2 | 10.24 |
| 5 | 5 − 5.2 = −0.2 | 0.04 |
3단계: 차이의 제곱 합
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
4단계: n − 1로 나누기(표본 분산)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
표본 분산은 6.4입니다.
분산 대 표준편차
표준편차는 단순히 분산의 제곱근입니다.
s = √s² = √6.4 ≈ 2.53
표준편차는 원본 데이터와 동일한 단위로 표현되므로 해석하기가 더 쉽습니다. 데이터가 킬로그램 단위인 경우 표준편차는 킬로그램 단위입니다. 차이는 킬로그램² 단위입니다. 이것이 바로 표준편차가 더 일반적으로 보고되는 이유입니다. 그러나 분산은 많은 통계 계산에 사용됩니다.
모집단과 표본: 각각을 언제 사용해야 하는가
| 상황 | 사용 |
|---|---|
| 그룹의 모든 구성원에 대한 데이터가 있습니다. | 모집단 분산(¼ N) |
| 귀하의 데이터는 더 큰 그룹의 샘플입니다. | 표본 분산(¼ n − 1) |
| 다른 통계 테스트와 비교 | 일반적으로 표본 분산 |
| 귀하의 데이터 세트는 완전한 그림입니다 | 인구 분산 |
의심스러운 경우 표본 분산을 사용하십시오. 대부분의 실제 데이터세트는 표본입니다.
차이를 제곱하는 이유
당신은 궁금해 할 것입니다: 왜 평균과의 원시 차이를 평균화하면 안 될까요?
문제는 양수 및 음수 편차가 상쇄된다는 것입니다. 위 데이터세트의 경우 일부 값은 평균보다 높고 일부는 평균보다 낮습니다. 제곱하지 않고 모두 더하면 항상 0이 됩니다.
제곱은 음의 부호를 제거하므로 모든 편차는 전체 스프레드에 긍정적으로 기여합니다.
실제 적용
재무: 포트폴리오 변동은 투자 위험을 측정합니다. 분산이 0.04인 포트폴리오는 분산이 0.16인 포트폴리오보다 덜 위험합니다. 둘 다 동일한 기대 수익을 갖는다고 해도 마찬가지입니다.
품질 관리: 변동이 적은 제조 공정을 통해 보다 일관된 결과물을 얻을 수 있습니다. 높은 분산은 예측할 수 없는 결과를 의미합니다.
과학: 실험에서 반복 측정 간의 차이가 크다는 것은 측정 오류 또는 통제되지 않은 변수를 의미합니다.
스포츠 분석: 선수 성과 차이는 선수가 꾸준함(낮은 변화)인지 아니면 연속적인(높은 변화)지를 알려줍니다.
흔히 저지르는 실수
표본에 n − 1 대신 N 사용 — 이는 실제 모집단 분산을 과소평가합니다. 표본 데이터에는 항상 n − 1을 사용하십시오.
제곱하는 것을 잊음 — 일반적인 오류는 제곱된 차이가 아닌 원시 차이의 평균을 구하는 것입니다.
범위와 분산의 혼동 — 범위는 단순히 최대값에서 최소값을 뺀 값입니다. 분산은 극단값뿐만 아니라 모든 데이터 포인트를 설명합니다.
빠른 참조
| 공식 | 언제 사용하나요? |
|---|---|
| 코드0 | 전체 인구 |
| 코드0 | 모집단의 표본 |
| 코드0 | 표준편차를 구하려면 |