Statystyki dla początkujących: średnia, SD, testy hipotez i inne

Statystyka to język niepewności – narzędzie, które pozwala wyciągać wnioski z niekompletnych informacji. Niezależnie od tego, czy czytasz ankietę, interpretujesz wyniki badania klinicznego, czy analizujesz własne dane, zrozumienie tych podstawowych pojęć sprawi, że będziesz znacznie bardziej krytycznym czytelnikiem.

Statystyki opisowe: podsumowanie danych

Zanim będziesz mógł analizować dane, musisz je opisać. Kluczowymi miarami są tendencja centralna (gdzie jest środek?) i rozpiętość (jak zmienne są dane?).

Średnia, mediana i tryb

Średnia arytmetyczna to suma podzielona przez liczbę. Jest to najbardziej znana średnia, ale jest bardzo wrażliwa na wartości odstające.

mediana to wartość środkowa podczas sortowania danych. Jest solidniejszy — pojedyncza wartość ekstremalna nie powoduje większego poruszenia.

tryb jest najczęstszą wartością. Przydatne w przypadku danych kategorycznych; mniej przydatne do pomiarów ciągłych.

Zbiór danych	Mieć na myśli	Mediana	Tryb
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

Zwróć uwagę, jak jedna skrajna wartość (100) radykalnie zmienia średnią, ale pozostawia medianę nietkniętą. Dlatego właśnie statystyki dotyczące cen domów wykorzystują medianę – kilka wielomilionowych rezydencji spowodowałoby, że średnie ceny wprowadzałyby w błąd.

Odchylenie standardowe i wariancja

Wariancja mierzy średni kwadrat odchylenia od średniej:

σ² = Σ(xi - x̄)² / n

Odchylenie standardowe to pierwiastek kwadratowy wariancji — wyrażony w tych samych jednostkach, co dane oryginalne, co umożliwia jego interpretację:

σ = √[Σ(xi - x̄)² / n]

Reguła 68-95-99,7 dla danych o rozkładzie normalnym:

68% wartości mieści się w granicach 1 odchylenia standardowego od średniej
95% w granicach 2 odchyleń standardowych
99,7% w granicach 3 odchyleń standardowych

Uwaga: Użyj n w mianowniku odchylenia standardowego populacji; użyj n-1 dla oszacowania próbki (nazywa się to poprawką Bessela i koryguje niewielkie niedoszacowanie występujące w przypadku próbek).

Rozkład normalny

Rozkład normalny (Gaussa) to krzywa w kształcie dzwonu, która pojawia się wszędzie w przyrodzie i statystyce. W pełni opisują to dwa parametry: średnia (μ) i odchylenie standardowe (σ).

z-score konwertuje dowolną wartość na „ile odchyleń standardowych od średniej”:

z = (x - μ) / σ

Wynik z wynoszący 1,96 odpowiada 97,5 percentylowi — wartości, powyżej której leży jedynie 2,5% rozkładu. To pojawia się stale w statystykach ze względu na przedziały ufności.

Centralne twierdzenie graniczne wyjaśnia, dlaczego rozkład normalny ma tak duże znaczenie: niezależnie od kształtu pierwotnej populacji, rozkład średnich z próby zbliża się do normalności w miarę wzrostu wielkości próby. Dlatego tak wiele testów statystycznych zakłada normalność, nawet jeśli surowe dane nie mają rozkładu normalnego.

Przedziały ufności

95% przedział ufności nie oznacza, że „istnieje 95% prawdopodobieństwo, że prawdziwa wartość mieści się w tym zakresie”. Oznacza to: „jeśli powtórzymy ten proces próbkowania wiele razy, 95% obliczonych przez nas przedziałów będzie zawierało wartość prawdziwą”.

Dla proporcji p z próbki o wielkości n:

CI = p ± z × √(p(1-p)/n)

Dla ufności 95% z = 1,96. Dla 99% z = 2,576.

Margines błędu to tylko część ±: z × √(p(1-p)/n). Kiedy sondaż podaje „± 3 punkty procentowe”, jest to margines błędu.

Testowanie hipotez

Każdy test hipotezy ma tę samą strukturę:

H₀ (hipoteza zerowa): Wartość domyślna — zwykle „brak efektu”, „brak różnicy”, „brak związku”
H₁ (hipoteza alternatywna): Na co próbujesz wykazać dowody
Statystyka testowa: Liczba obliczona na podstawie danych, która mierzy, jak daleko od H₀ znajdują się dane
wartość p: prawdopodobieństwo zaobserwowania wyniku co najmniej tak skrajnego, jeśli H₀ jest prawdziwe

Wartość p wyjaśniona

Wartość p wynosząca 0,03 oznacza: „Gdyby naprawdę nie było żadnego efektu, tak ekstremalne dane przez przypadek zobaczylibyśmy tylko w 3% przypadków”. Zwykle uważa się to za wystarczająco istotne, aby odrzucić H₀.

Co p < 0,05 NIE oznacza:

Nie oznacza to, że istnieje 95% szans, że efekt będzie prawdziwy
Nie oznacza to, że efekt jest praktycznie ważny
To nie znaczy, że H₀ jest fałszywe

Błędy typu I i typu II:

	H₀ jest prawdą	H₀ jest fałszywe
Odrzuć H₀	Błąd typu I (fałszywie dodatni)	Prawidłowy
Nie odrzucono H₀	Prawidłowy	Błąd typu II (fałszywie ujemny)

α (poziom istotności) = poziom błędu typu I, zwykle 0,05 β = poziom błędu typu II; Moc = 1 - β, zwykle ukierunkowana na 0,80

Test t

Test t porównuje średnie między grupami. Statystyka t dla dwóch próbek to:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Duże |t| oznacza, że grupy są daleko od siebie w stosunku do zmienności wewnątrzgrupowej. Porównaj z wartością krytyczną (lub oblicz wartość p) z odpowiednimi stopniami swobody.

Kiedy go używać: Porównanie dwóch średnich z niezależnych grup, gdy dane są w przybliżeniu normalne lub n > 30.

Korelacja

R Pearsona mierzy siłę liniowej zależności między dwiema zmiennymi:

r = +1: Idealna dodatnia zależność liniowa
r = 0: Brak zależności liniowej
r = −1: Idealna ujemna zależność liniowa

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r kwadrat) informuje o proporcji wariancji w Y wyjaśnionej przez X. Jeśli r = 0,7, wówczas R² = 0,49 — X wyjaśnia 49% zmienności w Y.

** ρ** (rho) Spearmana robi to samo, ale wykorzystuje rangi, a nie surowe wartości, dzięki czemu jest odporny na wartości odstające i odpowiedni dla danych porządkowych.

Pamiętaj: Korelacja ≠ przyczyna. Sprzedaż lodów i liczba utonięć są ze sobą silnie powiązane (oba szczyty w lecie), ale lody nie powodują utonięć.

Rozmiar efektu

Istotność statystyczna mówi, czy efekt jest rzeczywisty; rozmiar efektu informuje, jak duży jest efekt. d Cohena dla porównania dwóch środków:

d = (μ₁ - μ₂) / σ_pooled

Cohena zm	Interpretacja
0.2	Mały
0.5	Średni
0.8	Duży

Wysoce znacząca wartość p przy d = 0,1 oznacza, że wykryto rzeczywisty, ale trywialnie mały efekt — prawdopodobnie dlatego, że próbka była ogromna. Zawsze podawaj wielkość efektu wraz z wartościami p.

Test chi-kwadrat

Test chi-kwadrat (χ²) zadaje pytanie: „Czy zaobserwowane zliczenia różnią się od tego, czego byśmy się przez przypadek spodziewali?”

χ² = Σ (Observed - Expected)² / Expected

Używaj go, gdy Twoje dane są kategoryczne — na przykład sprawdzając, czy rzut jest sprawiedliwy lub czy wynik leczenia jest niezależny od leczonej grupy.

Wybór odpowiedniego testu

Sytuacja	Test
Porównaj jedną średnią ze znaną wartością	Test t dla jednej próby
Porównaj dwa niezależne środki	Test t dla dwóch próbek
Porównaj dwa sparowane środki	Sparowany test t
Porównaj 3+ oznacza	ANOVA
Porównaj 3+ średnie (nienormalne)	Kruskala-Wallisa
Związek pomiędzy dwiema zmiennymi ciągłymi	Korelacja Pearsona/Spearmana
Porównaj proporcje kategoryczne	Chi-kwadrat
Dwie grupy, rozkład inny niż normalny	Mann-Whitney U

Typowe błędy

Podglądanie: Wielokrotne uruchamianie testu i zatrzymywanie, gdy p < Wartość 0,05 dramatycznie zawyża błąd typu I. Zaplanuj wielkość próbki przed zebraniem danych.

Porównania wielokrotne: Przeprowadzenie 20 niezależnych testów przy α = 0,05 da średnio jeden wynik fałszywie pozytywny. Użyj poprawki Bonferroniego lub kontroluj współczynnik fałszywych odkryć.

Ignorowanie założeń: Większość testów zakłada losowe próbkowanie, niezależność obserwacji i (w przypadku testów t) przybliżoną normalność. Naruszenie ich podważa wyniki.

Skorzystaj z naszego Kalkulatora wyniku Z-Score, Kalkulatora wielkości próbki, Kalkulatora testu t i Kalkulatora korelacji, aby pracować nad własnymi danymi.