Jak obliczyć wariancję: przewodnik krok po kroku

Wariancja mierzy, jak bardzo zbiór liczb różni się od ich średniej. To jedno z najważniejszych pojęć w statystyce — stosowane w finansach do pomiaru ryzyka inwestycyjnego, w nauce do oceny spójności eksperymentów oraz w codziennej analizie danych.

Czym jest wariancja?

Wariancja jest średnią kwadratów różnic od średniej. Niska wariancja oznacza, że punkty danych skupiają się ściśle wokół średniej. Wysoka wariancja oznacza, że są one szeroko rozpowszechnione.

Istnieją dwa typy:

Wariancja populacji (σ²) — stosowana, gdy dysponujesz danymi dla całej populacji
Wariancja próbki (s²) — stosowana, gdy dane stanowią próbkę z większej populacji

W praktyce prawie zawsze będziesz używać wariancji próbki.

Wzór na wariancję

Wariancja populacji

σ² = Σ(xᵢ - μ)² / N

Gdzie:

xᵢ = każdy punkt danych
μ = średnia populacji
N = liczba punktów danych

Odchylenie próbki

s² = Σ(xᵢ - x̄)² / (n - 1)

Gdzie:

x̄ = średnia próbki
n - 1 = stopnie swobody (poprawka Bessela)

KOD0 w wariancji próbki koryguje fakt, że próbka ma tendencję do niedoceniania prawdziwego rozmieszczenia populacji.

Przykład krok po kroku

Zbiór danych: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

Krok 1: Oblicz średnią

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

Krok 2: Odejmij średnią od każdej wartości i podnieś wynik do kwadratu

Wartość	Wartość – średnia	(Wartość - Średnia)²
4	4 - 5,2 = -1,2	1.44
8	8 - 5,2 = 2,8	7.84
6	6 - 5,2 = 0,8	0.64
5	5 - 5,2 = -0,2	0.04
3	3 - 5,2 = -2,2	4.84
2	2 - 5,2 = -3,2	10.24
8	8 - 5,2 = 2,8	7.84
9	9 - 5,2 = 3,8	14.44
2	2 - 5,2 = -3,2	10.24
5	5 - 5,2 = -0,2	0.04

Krok 3: Zsumuj różnice do kwadratu

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

Krok 4: Podziel przez n − 1 (wariancja próbki)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

Wariancja próbki wynosi 6,4.

Wariancja a odchylenie standardowe

Odchylenie standardowe to po prostu pierwiastek kwadratowy wariancji:

s = √s² = √6.4 ≈ 2.53

Odchylenie standardowe wyrażone jest w tych samych jednostkach, co dane oryginalne, co ułatwia interpretację. Jeśli dane podawane są w kilogramach, odchylenie standardowe jest podawane w kilogramach. Odchylenie wyrażone jest w kilogramach². Dlatego częściej podaje się odchylenie standardowe, choć w wielu obliczeniach statystycznych wykorzystuje się wariancję.

Populacja a próbka: kiedy używać każdego z nich

Sytuacja	Używać
Masz dane dla każdego członka grupy	Wariancja populacji (÷ N)
Twoje dane to próbka z większej grupy	Wariancja próbki (÷ n − 1)
Porównanie z innymi testami statystycznymi	Zwykle wariancja próbki
Twój zbiór danych to pełny obraz	Wariancja populacji

W razie wątpliwości użyj wariancji próbki. Większość zbiorów danych ze świata rzeczywistego to próbki.

Dlaczego wyrównujemy różnice

Możesz się zastanawiać: dlaczego nie po prostu uśrednić surowych różnic w stosunku do średniej?

Problem w tym, że odchylenia dodatnie i ujemne znoszą się. W przypadku powyższego zbioru danych niektóre wartości znajdują się powyżej średniej, a inne poniżej. Jeśli dodasz je wszystkie bez podnoszenia do kwadratu, zawsze otrzymasz zero.

Podniesienie do kwadratu usuwa znaki ujemne, więc wszystkie odchylenia mają pozytywny wpływ na całkowity spread.

Praktyczne zastosowania

Finanse: Wariancja portfela mierzy ryzyko inwestycyjne. Portfel z wariancją 0,04 jest mniej ryzykowny niż portfel z wariancją 0,16 – nawet jeśli oba mają taki sam oczekiwany zwrot.

Kontrola jakości: Proces produkcyjny charakteryzujący się małą zmiennością zapewnia bardziej spójne wyniki. Wysoka wariancja oznacza nieprzewidywalne wyniki.

Nauka: w eksperymentach duża rozbieżność między powtarzanymi pomiarami sugeruje błąd pomiaru lub niekontrolowane zmienne.

Analiza sportowa: Wariancja wyników gracza informuje, czy zawodnik gra regularnie (niska wariancja), czy ma passy (wysoka wariancja).

Typowe błędy

Użycie N zamiast n – 1 dla próbek — To niedoszacowuje prawdziwą wariancję populacji. Zawsze używaj n - 1 dla przykładowych danych.

Zapominanie o kwadratowaniu — Częstym błędem jest uśrednianie różnic surowych, a nie różnic podniesionych do kwadratu.

Myląca wariancja z zasięgiem — zasięg to po prostu maksimum minus minimum. Wariancja uwzględnia wszystkie punkty danych, a nie tylko skrajności.

Skrócona instrukcja

Formuła	Kiedy używać
KOD0	Pełna populacja
KOD0	Próbka z populacji
KOD0	Aby uzyskać odchylenie standardowe

Przeczytaj dalej

[Jak obliczyć odchylenie standardowe](/en/blog/how-to-obliczyć odchylenie standardowe)
[Co to jest odchylenie standardowe?](/en/blog/co to jest odchylenie standardowe)
Jak znaleźć medianę