표준편차는 통계에서 가장 널리 사용되는 확산 척도입니다. 이는 데이터가 촘촘하게 클러스터되어 있는지 아니면 널리 분산되어 있는지 여부와 같이 일반적인 값이 평균에서 얼마나 떨어져 있는지 알려줍니다. 일단 손으로 계산을 한 번 해 보면 개념이 직관적이 됩니다.
표준편차가 알려주는 것
한 학급의 학생 평균 시험 점수가 70점이고 표준 편차가 5인 경우 대부분의 점수는 65~75점입니다. 표준 편차가 20인 경우 점수 범위는 50점에서 90점 이상으로 훨씬 더 광범위합니다.
작은 표준편차는 일관성을 의미합니다. 큰 것은 가변성을 의미합니다.
모집단과 표본 표준편차
두 가지 버전이 있으며 올바른 버전을 선택하는 것이 중요합니다.
인구 표준 편차(σ): 관심 있는 그룹의 모든 구성원에 대한 데이터가 있는 경우 사용합니다. n으로 나눕니다.
표본 표준 편차: 데이터가 더 큰 모집단에서 추출된 표본일 때 사용합니다. n − 1(샘플링으로 인한 불확실성을 설명하는 베셀 보정)으로 나눕니다.
실제로는 전체 인구 조사나 누락된 구성원이 없는 통제된 데이터 세트를 분석하는 경우를 제외하고는 거의 항상 표본 표준 편차를 사용합니다.
단계별 계산
데이터세트: 4, 7, 13, 2, 1(5개 값의 샘플)
1단계: 평균 계산
Mean (x̄) = (4 + 7 + 13 + 2 + 1) / 5 = 27 / 5 = 5.4
2단계: 평균으로부터의 각 편차 찾기
각 값에서 평균을 뺍니다.
| 값(x) | 편차(x − x̄) |
|---|---|
| 4 | 4 − 5.4 = −1.4 |
| 7 | 7 − 5.4 = +1.6 |
| 13 | 13 − 5.4 = +7.6 |
| 2 | 2 − 5.4 = −3.4 |
| 1 | 1 − 5.4 = −4.4 |
3단계: 각 편차를 제곱합니다.
제곱은 음수 부호를 제거하고 더 큰 편차를 강조합니다.
| 편차 | 제곱편차 |
|---|---|
| -1.4 | 1.96 |
| +1.6 | 2.56 |
| +7.6 | 57.76 |
| -3.4 | 11.56 |
| -4.4 | 19.36 |
4단계: 편차 제곱의 합을 구합니다.
Sum = 1.96 + 2.56 + 57.76 + 11.56 + 19.36 = 93.2
5단계: n − 1로 나눕니다(표본 표준편차의 경우)
Variance (s²) = 93.2 / (5 − 1) = 93.2 / 4 = 23.3
6단계: 제곱근을 구합니다.
Standard deviation (s) = √23.3 = 4.83
해석: 이 데이터 세트의 값은 일반적으로 평균 5.4에서 약 4.83 단위 떨어져 있습니다.
쓰여진 공식
샘플 표준 편차:
s = √[ Σ(x − x̄)² / (n − 1) ]
모집단 표준편차:
σ = √[ Σ(x − μ)² / n ]
여기서 μ(mu)는 모집단 평균입니다.
경험적 법칙(68-95-99.7 법칙)
정규 분포를 따르는 데이터의 경우 표준 편차는 각 범위 내의 데이터 비율과 신뢰할 수 있는 관계를 갖습니다.
| 범위 | 데이터의 비율 |
|---|---|
| 평균 ± 1SD | ~68% |
| 평균 ± 2SD | ~95% |
| 평균 ± 3SD | ~99.7% |
적용 예: IQ 점수의 평균은 100, SD는 15입니다.
- 68%의 사람들이 85점에서 115점 사이의 점수를 받았습니다.
- 70~130점 사이 95% 점수
- 55~145 사이의 점수가 99.7%입니다.
이 규칙은 정규 분포 데이터에만 적용됩니다. 치우쳐 있거나 꼬리가 두꺼운 분포의 경우 체비쇼프 부등식을 대신 사용하십시오.
분산 대 표준편차
분산은 제곱 편차입니다(위의 5단계). 표준 편차는 제곱근입니다. 두 측정값 모두 확산되지만 표준 편차는 원본 데이터와 동일한 단위로 표현되므로 해석하기가 더 쉽습니다.
데이터가 킬로그램 단위인 경우 표준 편차는 킬로그램 단위입니다. 차이는 킬로그램 제곱 단위이므로 의미 있게 해석하기가 더 어렵습니다.
일반 애플리케이션
금융: 투자 변동성을 측정합니다. 일일 수익률이 높고 SD가 높은 주식은 변동성이 더 높습니다. 즉, 잠재적 이익이 더 높고 잠재적 손실도 더 높습니다.
품질 관리: 제조에서는 SD를 사용하여 제품이 허용 오차 범위 내에 있도록 보장합니다. SD가 너무 큰 프로세스에서는 불량품이 너무 많이 생성됩니다.
교육: 시험 점수 표준화. z-점수는 점수가 평균보다 높거나 낮은 표준 편차의 수를 알려줍니다(z = (x − 평균) / SD).
과학: 측정 불확실성을 표현하고 실험 결과를 비교합니다.
계산 바로가기
대규모 데이터세트의 경우 편차를 개별적으로 계산하지 않는 계산 공식을 사용하세요.
s² = [Σx² − (Σx)²/n] / (n − 1)
이는 수학적으로 동일하지만 데이터를 세 번 통과하는 대신 두 번만 통과하면 됩니다.
표준편차 계산기를 사용하여 입력한 데이터세트에 대한 표준편차, 분산 및 전체 분석을 계산하세요.