초보자를 위한 통계: 평균, SD, 가설 검정 등

통계는 불확실성의 언어, 즉 불완전한 정보에서 결론을 도출할 수 있는 도구입니다. 뉴스 여론조사를 읽든, 임상 시험 결과를 해석하든, 자신의 데이터를 분석하든, 이러한 핵심 개념을 이해하면 훨씬 더 비판적인 독자가 될 수 있습니다.

기술통계: 데이터 요약

데이터를 분석하려면 먼저 데이터를 설명해야 합니다. 주요 측정값은 중심 경향(중간은 어디입니까?) 및 확산(데이터의 가변성은 얼마나 됩니까?)입니다.

평균, 중앙값 및 모드

산술 평균은 합계를 개수로 나눈 값입니다. 이는 가장 친숙한 평균이지만 이상값에 매우 민감합니다.

중앙값은 데이터를 정렬할 때 중간에 있는 값입니다. 더 강력합니다. 단일 극단값은 크게 움직이지 않습니다.

모드는 가장 자주 사용되는 값입니다. 범주형 데이터에 유용합니다. 연속 측정에는 덜 유용합니다.

데이터세트	평균	중앙값	방법
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

하나의 극단값(100)이 어떻게 평균을 극적으로 변화시키지만 중앙값은 그대로 유지하는지 확인하세요. 이것이 바로 주택 가격 통계에서 중앙값을 사용하는 이유입니다. 소수의 수백만 파운드짜리 저택은 평균 가격을 오해하게 만들 수 있습니다.

표준편차와 분산

분산은 평균의 평균 제곱 편차를 측정합니다.

σ² = Σ(xi - x̄)² / n

표준편차는 분산의 제곱근입니다. 원본 데이터와 단위가 동일하므로 해석이 가능합니다.

σ = √[Σ(xi - x̄)² / n]

정규 분포 데이터에 대한 68-95-99.7 규칙:

값의 68%가 평균의 1 표준편차 내에 속합니다.
2 표준편차 이내 95%
3표준편차 이내 99.7%

참고: 모집단 표준편차의 분모에 n을 사용합니다. 샘플 추정에 n−1을 사용합니다(이를 Bessel 보정이라고 하며 샘플에서 발생하는 약간의 과소평가를 수정합니다).

정규분포

정규(가우스) 분포는 자연과 통계의 모든 곳에서 나타나는 종 모양의 곡선입니다. 이는 평균(μ)과 표준편차(σ)라는 두 가지 매개변수로 완전히 설명됩니다.

z-점수는 모든 값을 "평균에서 얼마나 많은 표준 편차가 있는지"로 변환합니다.

z = (x - μ) / σ

1.96의 z-점수는 97.5번째 백분위수에 해당합니다. 이 값 위에는 분포의 2.5%만 해당됩니다. 이는 신뢰 구간으로 인해 통계에 지속적으로 나타납니다.

중앙 극한 정리는 정규 분포가 그토록 중요한 이유입니다. 즉, 원래 모집단의 모양에 관계없이 표본 평균의 분포는 표본 크기가 증가함에 따라 정규성에 가까워집니다. 이것이 바로 원시 데이터가 정규 분포를 따르지 않는 경우에도 많은 통계 테스트가 정규성을 가정하는 이유입니다.

신뢰구간

95% 신뢰 구간은 "실제 값이 이 범위에 있을 확률이 95%"라는 의미는 아닙니다. 이는 "이 샘플링 프로세스를 여러 번 반복하면 계산된 간격의 95%에 실제 값이 포함됩니다."를 의미합니다.

크기 n의 표본에서 비율 p의 경우:

CI = p ± z × √(p(1-p)/n)

95% 신뢰도의 경우 z = 1.96입니다. 99%의 경우 z = 2.576입니다.

오차 한계는 단지 ± 부분: z × √(p(1-p)/n)입니다. 여론 조사에서 "±3% 포인트"가 보고되면 이것이 오차 범위입니다.

가설 테스트

모든 가설 검정은 동일한 구조를 따릅니다.

H₀(귀무가설): 기본값 — 일반적으로 "효과 없음", "차이 없음", "관계 없음"
H₁(대립가설): 증거를 보여주려는 내용
검정통계량: 데이터가 H₀로부터 얼마나 떨어져 있는지를 측정하여 데이터로부터 계산한 수치
p-값: H₀이 참인 경우 최소한 이 극단의 결과를 관찰할 확률

p-값 설명

p-값 0.03은 다음을 의미합니다. "실제로 효과가 없다면 우연히 이 극단적인 데이터를 볼 수 있는 확률은 3%에 불과합니다." 이는 일반적으로 H₀를 기각할 만큼 충분히 중요한 것으로 간주됩니다.

무슨 p < 0.05는 다음을 의미하지 않습니다.

효과가 실제일 확률이 95%라는 뜻은 아닙니다.
효과가 실질적으로 중요하다는 뜻은 아닙니다.
H₀이 거짓이라는 의미는 아닙니다.

유형 I 및 유형 II 오류:

	H₀는 참입니다	H₀는 거짓입니다
H₀ 거부	제1종 오류(거짓양성)	옳은
H₀ 거부 실패	옳은	제2종 오류(거짓음성)

α(유의 수준) = 제1종 오류율, 일반적으로 0.05 β = 제2종 오류율; 검정력 = 1 − β, 일반적으로 0.80을 목표로 함

t-테스트

t-검정은 그룹 간의 평균을 비교합니다. 2-표본 t-통계량은 다음과 같습니다.

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

큰 |t| 그룹 내 변동성에 비해 그룹이 멀리 떨어져 있음을 의미합니다. 적절한 자유도를 사용하여 임계값과 비교합니다(또는 p-값을 계산합니다).

사용 시기: 데이터가 대략 정규이거나 n >gt;일 때 독립 그룹의 두 평균을 비교합니다. 30.

상관관계

Pearson의 r은 두 변수 간의 선형 관계의 강도를 측정합니다.

r = +1: 완벽한 양의 선형 관계
r = 0: 선형 관계 없음
r = −1: 완벽한 음의 선형 관계

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R²(r 제곱)은 X에 의해 설명되는 Y의 분산 비율을 나타냅니다. r = 0.7이면 R² = 0.49 — X는 Y의 변동성의 49%를 설명합니다.

Spearman의 ρ(rho)는 동일한 작업을 수행하지만 원시 값이 아닌 순위를 사용하므로 이상값에 강력하고 순서 데이터에 적합합니다.

기억하세요: 상관관계 ≠ 인과관계. 아이스크림 판매와 익사율은 강한 상관관계가 있지만(둘 다 여름에 최고치) 아이스크림이 익사를 유발하지는 않습니다.

효과 크기

통계적 유의성은 효과가 실제인지 여부를 알려줍니다. 효과 크기는 그것이 얼마나 큰지 알려줍니다. 두 가지 평균을 비교하기 위한 Cohen의 d는 다음과 같습니다.

d = (μ₁ - μ₂) / σ_pooled

코헨의 d	해석
0.2	작은
0.5	중간
0.8	크기가 큰

d = 0.1인 매우 유의한 p-값은 실제이지만 사소하게 작은 효과를 감지했음을 의미합니다. 아마도 표본이 엄청났기 때문일 것입니다. 항상 p-값과 함께 효과 크기를 보고하십시오.

카이제곱 테스트

카이제곱(χ²) 테스트에서는 "관측된 개수가 우연히 예상한 개수와 다른가요?"라고 묻습니다.

χ² = Σ (Observed - Expected)² / Expected

데이터가 범주형인 경우(예: 주사위가 공정한지 테스트하거나 치료 결과가 치료 그룹과 독립적인지 여부를 테스트하는 경우) 이를 사용하세요.

올바른 테스트 선택

상황	시험
하나의 평균을 알려진 값과 비교	일표본 t-검정
두 개의 독립 평균 비교	2-표본 t-검정
두 쌍의 평균 비교	쌍체 t-검정
3+ 비교는 평균을 의미합니다.	분산분석
3+ 평균 비교(비정규)	크루스칼-월리스
두 연속 변수 사이의 연관	피어슨/스피어먼 상관관계
범주형 비율 비교	카이제곱
두 그룹, 비정규 분포	만-휘트니 U

흔히 저지르는 실수

피킹: 테스트를 반복적으로 실행하고 p < 0.05는 제1종 오류를 극적으로 부풀립니다. 데이터를 수집하기 전에 표본 크기를 계획하십시오.

다중 비교: α = 0.05에서 20개의 독립적인 테스트를 실행하면 평균적으로 하나의 잘못된 긍정이 생성됩니다. Bonferroni 수정을 사용하거나 잘못된 발견 비율을 제어하십시오.

가정 무시: 대부분의 테스트는 무작위 샘플링, 관측치의 독립성 및 (t-테스트의 경우) 근사 정규성을 가정합니다. 이를 위반하면 결과가 훼손됩니다.

Z-점수 계산기, 샘플 크기 계산기, t-테스트 계산기 및 상관관계 계산기를 사용하여 자체 데이터를 처리하세요.