Statystyka to język niepewności – narzędzie, które pozwala wyciągać wnioski z niekompletnych informacji. Niezależnie od tego, czy czytasz ankietę, interpretujesz wyniki badania klinicznego, czy analizujesz własne dane, zrozumienie tych podstawowych pojęć sprawi, że będziesz znacznie bardziej krytycznym czytelnikiem.
Statystyki opisowe: podsumowanie danych
Zanim będziesz mógł analizować dane, musisz je opisać. Kluczowymi miarami są tendencja centralna (gdzie jest środek?) i rozpiętość (jak zmienne są dane?).
Średnia, mediana i tryb
Średnia arytmetyczna to suma podzielona przez liczbę. Jest to najbardziej znana średnia, ale jest bardzo wrażliwa na wartości odstające.
mediana to wartość środkowa podczas sortowania danych. Jest solidniejszy — pojedyncza wartość ekstremalna nie powoduje większego poruszenia.
tryb jest najczęstszą wartością. Przydatne w przypadku danych kategorycznych; mniej przydatne do pomiarów ciągłych.
| Zbiór danych | Mieć na myśli | Mediana | Tryb |
|---|---|---|---|
| 2, 4, 4, 6, 8 | 4.8 | 4 | 4 |
| 2, 4, 4, 6, 100 | 23.2 | 4 | 4 |
Zwróć uwagę, jak jedna skrajna wartość (100) radykalnie zmienia średnią, ale pozostawia medianę nietkniętą. Dlatego właśnie statystyki dotyczące cen domów wykorzystują medianę – kilka wielomilionowych rezydencji spowodowałoby, że średnie ceny wprowadzałyby w błąd.
Odchylenie standardowe i wariancja
Wariancja mierzy średni kwadrat odchylenia od średniej:
σ² = Σ(xi - x̄)² / n
Odchylenie standardowe to pierwiastek kwadratowy wariancji — wyrażony w tych samych jednostkach, co dane oryginalne, co umożliwia jego interpretację:
σ = √[Σ(xi - x̄)² / n]
Reguła 68-95-99,7 dla danych o rozkładzie normalnym:
- 68% wartości mieści się w granicach 1 odchylenia standardowego od średniej
- 95% w granicach 2 odchyleń standardowych
- 99,7% w granicach 3 odchyleń standardowych
Uwaga: Użyj n w mianowniku odchylenia standardowego populacji; użyj n-1 dla oszacowania próbki (nazywa się to poprawką Bessela i koryguje niewielkie niedoszacowanie występujące w przypadku próbek).
Rozkład normalny
Rozkład normalny (Gaussa) to krzywa w kształcie dzwonu, która pojawia się wszędzie w przyrodzie i statystyce. W pełni opisują to dwa parametry: średnia (μ) i odchylenie standardowe (σ).
z-score konwertuje dowolną wartość na „ile odchyleń standardowych od średniej”:
z = (x - μ) / σ
Wynik z wynoszący 1,96 odpowiada 97,5 percentylowi — wartości, powyżej której leży jedynie 2,5% rozkładu. To pojawia się stale w statystykach ze względu na przedziały ufności.
Centralne twierdzenie graniczne wyjaśnia, dlaczego rozkład normalny ma tak duże znaczenie: niezależnie od kształtu pierwotnej populacji, rozkład średnich z próby zbliża się do normalności w miarę wzrostu wielkości próby. Dlatego tak wiele testów statystycznych zakłada normalność, nawet jeśli surowe dane nie mają rozkładu normalnego.
Przedziały ufności
95% przedział ufności nie oznacza, że „istnieje 95% prawdopodobieństwo, że prawdziwa wartość mieści się w tym zakresie”. Oznacza to: „jeśli powtórzymy ten proces próbkowania wiele razy, 95% obliczonych przez nas przedziałów będzie zawierało wartość prawdziwą”.
Dla proporcji p z próbki o wielkości n:
CI = p ± z × √(p(1-p)/n)
Dla ufności 95% z = 1,96. Dla 99% z = 2,576.
Margines błędu to tylko część ±: z × √(p(1-p)/n). Kiedy sondaż podaje „± 3 punkty procentowe”, jest to margines błędu.
Testowanie hipotez
Każdy test hipotezy ma tę samą strukturę:
- H₀ (hipoteza zerowa): Wartość domyślna — zwykle „brak efektu”, „brak różnicy”, „brak związku”
- H₁ (hipoteza alternatywna): Na co próbujesz wykazać dowody
- Statystyka testowa: Liczba obliczona na podstawie danych, która mierzy, jak daleko od H₀ znajdują się dane
- wartość p: prawdopodobieństwo zaobserwowania wyniku co najmniej tak skrajnego, jeśli H₀ jest prawdziwe
Wartość p wyjaśniona
Wartość p wynosząca 0,03 oznacza: „Gdyby naprawdę nie było żadnego efektu, tak ekstremalne dane przez przypadek zobaczylibyśmy tylko w 3% przypadków”. Zwykle uważa się to za wystarczająco istotne, aby odrzucić H₀.
Co p < 0,05 NIE oznacza:
- Nie oznacza to, że istnieje 95% szans, że efekt będzie prawdziwy
- Nie oznacza to, że efekt jest praktycznie ważny
- To nie znaczy, że H₀ jest fałszywe
Błędy typu I i typu II:
| H₀ jest prawdą | H₀ jest fałszywe | |
|---|---|---|
| Odrzuć H₀ | Błąd typu I (fałszywie dodatni) | Prawidłowy |
| Nie odrzucono H₀ | Prawidłowy | Błąd typu II (fałszywie ujemny) |
α (poziom istotności) = poziom błędu typu I, zwykle 0,05 β = poziom błędu typu II; Moc = 1 - β, zwykle ukierunkowana na 0,80
Test t
Test t porównuje średnie między grupami. Statystyka t dla dwóch próbek to:
t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)
Duże |t| oznacza, że grupy są daleko od siebie w stosunku do zmienności wewnątrzgrupowej. Porównaj z wartością krytyczną (lub oblicz wartość p) z odpowiednimi stopniami swobody.
Kiedy go używać: Porównanie dwóch średnich z niezależnych grup, gdy dane są w przybliżeniu normalne lub n > 30.
Korelacja
R Pearsona mierzy siłę liniowej zależności między dwiema zmiennymi:
- r = +1: Idealna dodatnia zależność liniowa
- r = 0: Brak zależności liniowej
- r = −1: Idealna ujemna zależność liniowa
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]
R² (r kwadrat) informuje o proporcji wariancji w Y wyjaśnionej przez X. Jeśli r = 0,7, wówczas R² = 0,49 — X wyjaśnia 49% zmienności w Y.
** ρ** (rho) Spearmana robi to samo, ale wykorzystuje rangi, a nie surowe wartości, dzięki czemu jest odporny na wartości odstające i odpowiedni dla danych porządkowych.
Pamiętaj: Korelacja ≠ przyczyna. Sprzedaż lodów i liczba utonięć są ze sobą silnie powiązane (oba szczyty w lecie), ale lody nie powodują utonięć.
Rozmiar efektu
Istotność statystyczna mówi, czy efekt jest rzeczywisty; rozmiar efektu informuje, jak duży jest efekt. d Cohena dla porównania dwóch środków:
d = (μ₁ - μ₂) / σ_pooled
| Cohena zm | Interpretacja |
|---|---|
| 0.2 | Mały |
| 0.5 | Średni |
| 0.8 | Duży |
Wysoce znacząca wartość p przy d = 0,1 oznacza, że wykryto rzeczywisty, ale trywialnie mały efekt — prawdopodobnie dlatego, że próbka była ogromna. Zawsze podawaj wielkość efektu wraz z wartościami p.
Test chi-kwadrat
Test chi-kwadrat (χ²) zadaje pytanie: „Czy zaobserwowane zliczenia różnią się od tego, czego byśmy się przez przypadek spodziewali?”
χ² = Σ (Observed - Expected)² / Expected
Używaj go, gdy Twoje dane są kategoryczne — na przykład sprawdzając, czy rzut jest sprawiedliwy lub czy wynik leczenia jest niezależny od leczonej grupy.
Wybór odpowiedniego testu
| Sytuacja | Test |
|---|---|
| Porównaj jedną średnią ze znaną wartością | Test t dla jednej próby |
| Porównaj dwa niezależne środki | Test t dla dwóch próbek |
| Porównaj dwa sparowane środki | Sparowany test t |
| Porównaj 3+ oznacza | ANOVA |
| Porównaj 3+ średnie (nienormalne) | Kruskala-Wallisa |
| Związek pomiędzy dwiema zmiennymi ciągłymi | Korelacja Pearsona/Spearmana |
| Porównaj proporcje kategoryczne | Chi-kwadrat |
| Dwie grupy, rozkład inny niż normalny | Mann-Whitney U |
Typowe błędy
Podglądanie: Wielokrotne uruchamianie testu i zatrzymywanie, gdy p < Wartość 0,05 dramatycznie zawyża błąd typu I. Zaplanuj wielkość próbki przed zebraniem danych.
Porównania wielokrotne: Przeprowadzenie 20 niezależnych testów przy α = 0,05 da średnio jeden wynik fałszywie pozytywny. Użyj poprawki Bonferroniego lub kontroluj współczynnik fałszywych odkryć.
Ignorowanie założeń: Większość testów zakłada losowe próbkowanie, niezależność obserwacji i (w przypadku testów t) przybliżoną normalność. Naruszenie ich podważa wyniki.
Skorzystaj z naszego Kalkulatora wyniku Z-Score, Kalkulatora wielkości próbki, Kalkulatora testu t i Kalkulatora korelacji, aby pracować nad własnymi danymi.