Wariancja mierzy, jak bardzo zbiór liczb różni się od ich średniej. To jedno z najważniejszych pojęć w statystyce — stosowane w finansach do pomiaru ryzyka inwestycyjnego, w nauce do oceny spójności eksperymentów oraz w codziennej analizie danych.
Czym jest wariancja?
Wariancja jest średnią kwadratów różnic od średniej. Niska wariancja oznacza, że punkty danych skupiają się ściśle wokół średniej. Wysoka wariancja oznacza, że są one szeroko rozpowszechnione.
Istnieją dwa typy:
- Wariancja populacji (σ²) — stosowana, gdy dysponujesz danymi dla całej populacji
- Wariancja próbki (s²) — stosowana, gdy dane stanowią próbkę z większej populacji
W praktyce prawie zawsze będziesz używać wariancji próbki.
Wzór na wariancję
Wariancja populacji
σ² = Σ(xᵢ - μ)² / N
Gdzie:
- xᵢ = każdy punkt danych
- μ = średnia populacji
- N = liczba punktów danych
Odchylenie próbki
s² = Σ(xᵢ - x̄)² / (n - 1)
Gdzie:
- x̄ = średnia próbki
- n - 1 = stopnie swobody (poprawka Bessela)
KOD0 w wariancji próbki koryguje fakt, że próbka ma tendencję do niedoceniania prawdziwego rozmieszczenia populacji.
Przykład krok po kroku
Zbiór danych: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5
Krok 1: Oblicz średnią
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
Krok 2: Odejmij średnią od każdej wartości i podnieś wynik do kwadratu
| Wartość | Wartość – średnia | (Wartość - Średnia)² |
|---|---|---|
| 4 | 4 - 5,2 = -1,2 | 1.44 |
| 8 | 8 - 5,2 = 2,8 | 7.84 |
| 6 | 6 - 5,2 = 0,8 | 0.64 |
| 5 | 5 - 5,2 = -0,2 | 0.04 |
| 3 | 3 - 5,2 = -2,2 | 4.84 |
| 2 | 2 - 5,2 = -3,2 | 10.24 |
| 8 | 8 - 5,2 = 2,8 | 7.84 |
| 9 | 9 - 5,2 = 3,8 | 14.44 |
| 2 | 2 - 5,2 = -3,2 | 10.24 |
| 5 | 5 - 5,2 = -0,2 | 0.04 |
Krok 3: Zsumuj różnice do kwadratu
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
Krok 4: Podziel przez n − 1 (wariancja próbki)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
Wariancja próbki wynosi 6,4.
Wariancja a odchylenie standardowe
Odchylenie standardowe to po prostu pierwiastek kwadratowy wariancji:
s = √s² = √6.4 ≈ 2.53
Odchylenie standardowe wyrażone jest w tych samych jednostkach, co dane oryginalne, co ułatwia interpretację. Jeśli dane podawane są w kilogramach, odchylenie standardowe jest podawane w kilogramach. Odchylenie wyrażone jest w kilogramach². Dlatego częściej podaje się odchylenie standardowe, choć w wielu obliczeniach statystycznych wykorzystuje się wariancję.
Populacja a próbka: kiedy używać każdego z nich
| Sytuacja | Używać |
|---|---|
| Masz dane dla każdego członka grupy | Wariancja populacji (÷ N) |
| Twoje dane to próbka z większej grupy | Wariancja próbki (÷ n − 1) |
| Porównanie z innymi testami statystycznymi | Zwykle wariancja próbki |
| Twój zbiór danych to pełny obraz | Wariancja populacji |
W razie wątpliwości użyj wariancji próbki. Większość zbiorów danych ze świata rzeczywistego to próbki.
Dlaczego wyrównujemy różnice
Możesz się zastanawiać: dlaczego nie po prostu uśrednić surowych różnic w stosunku do średniej?
Problem w tym, że odchylenia dodatnie i ujemne znoszą się. W przypadku powyższego zbioru danych niektóre wartości znajdują się powyżej średniej, a inne poniżej. Jeśli dodasz je wszystkie bez podnoszenia do kwadratu, zawsze otrzymasz zero.
Podniesienie do kwadratu usuwa znaki ujemne, więc wszystkie odchylenia mają pozytywny wpływ na całkowity spread.
Praktyczne zastosowania
Finanse: Wariancja portfela mierzy ryzyko inwestycyjne. Portfel z wariancją 0,04 jest mniej ryzykowny niż portfel z wariancją 0,16 – nawet jeśli oba mają taki sam oczekiwany zwrot.
Kontrola jakości: Proces produkcyjny charakteryzujący się małą zmiennością zapewnia bardziej spójne wyniki. Wysoka wariancja oznacza nieprzewidywalne wyniki.
Nauka: w eksperymentach duża rozbieżność między powtarzanymi pomiarami sugeruje błąd pomiaru lub niekontrolowane zmienne.
Analiza sportowa: Wariancja wyników gracza informuje, czy zawodnik gra regularnie (niska wariancja), czy ma passy (wysoka wariancja).
Typowe błędy
Użycie N zamiast n – 1 dla próbek — To niedoszacowuje prawdziwą wariancję populacji. Zawsze używaj n - 1 dla przykładowych danych.
Zapominanie o kwadratowaniu — Częstym błędem jest uśrednianie różnic surowych, a nie różnic podniesionych do kwadratu.
Myląca wariancja z zasięgiem — zasięg to po prostu maksimum minus minimum. Wariancja uwzględnia wszystkie punkty danych, a nie tylko skrajności.
Skrócona instrukcja
| Formuła | Kiedy używać |
|---|---|
| KOD0 | Pełna populacja |
| KOD0 | Próbka z populacji |
| KOD0 | Aby uzyskać odchylenie standardowe |
Przeczytaj dalej
- [Jak obliczyć odchylenie standardowe](/en/blog/how-to-obliczyć odchylenie standardowe)
- [Co to jest odchylenie standardowe?](/en/blog/co to jest odchylenie standardowe)
- Jak znaleźć medianę