Variantie meet hoe verspreid een reeks getallen zich ten opzichte van hun gemiddelde bevindt. Het is een van de belangrijkste concepten in de statistiek: het wordt in de financiële wereld gebruikt om investeringsrisico's te meten, in de wetenschap om de consistentie van experimenten te beoordelen, en in de dagelijkse data-analyse.

Wat is variantie?

Variantie is het gemiddelde van de gekwadrateerde verschillen met het gemiddelde. Een lage variantie betekent dat de datapunten strak rond het gemiddelde liggen. Een hoge variantie betekent dat ze wijd verspreid zijn.

Er zijn twee soorten:

  • Populatievariantie (σ²) — gebruikt als u gegevens voor de gehele populatie heeft
  • Steekproefvariantie (s²) — gebruikt wanneer uw gegevens een steekproef uit een grotere populatie zijn

In de praktijk zul je bijna altijd steekproefvariantie gebruiken.

De variantieformule

Bevolkingsvariantie

σ² = Σ(xᵢ - μ)² / N

Waar:

  • xᵢ = elk gegevenspunt
  • μ = het populatiegemiddelde
  • N = aantal datapunten

Voorbeeldvariantie

s² = Σ(xᵢ - x̄)² / (n - 1)

Waar:

  • x̄ = het steekproefgemiddelde
  • n - 1 = vrijheidsgraden (Bessels correctie)

De CODE0 in de steekproefvariantie corrigeert voor het feit dat een steekproef de neiging heeft de werkelijke spreiding van de populatie te onderschatten.

Stapsgewijs voorbeeld

Gegevenset: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

Stap 1: Bereken het gemiddelde

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

Stap 2: Trek het gemiddelde van elke waarde af en kwadraat het resultaat

Waarde Waarde − Gemiddelde (Waarde − Gemiddelde)²
4 4 − 5,2 = −1,2 1.44
8 8 − 5,2 = 2,8 7.84
6 6 − 5,2 = 0,8 0.64
5 5 − 5,2 = −0,2 0.04
3 3 − 5,2 = −2,2 4.84
2 2 − 5,2 = −3,2 10.24
8 8 − 5,2 = 2,8 7.84
9 9 − 5,2 = 3,8 14.44
2 2 − 5,2 = −3,2 10.24
5 5 − 5,2 = −0,2 0.04

Stap 3: Tel de gekwadrateerde verschillen op

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

Stap 4: delen door n − 1 (steekproefvariantie)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

De steekproefvariantie is 6,4.

Variantie versus standaarddeviatie

Standaarddeviatie is eenvoudigweg de vierkantswortel van variantie:

s = √s² = √6.4 ≈ 2.53

De standaardafwijking wordt uitgedrukt in dezelfde eenheden als de originele gegevens, waardoor deze gemakkelijker te interpreteren zijn. Als uw gegevens in kilogrammen zijn, is de standaarddeviatie in kilogrammen. Variantie is in kilogram². Dit is de reden waarom standaarddeviatie vaker wordt gerapporteerd, maar variantie wordt in veel statistische berekeningen gebruikt.

Populatie versus steekproef: wanneer moet u ze gebruiken?

Situatie Gebruik
U beschikt over gegevens voor elk lid van de groep Bevolkingsvariantie (÷ N)
Uw gegevens zijn een voorbeeld uit een grotere groep Steekproefvariantie (÷ n − 1)
Vergelijking met andere statistische tests Meestal steekproefvariantie
Uw dataset is het complete plaatje Bevolkingsvariantie

Gebruik bij twijfel steekproefvariantie. De meeste datasets uit de echte wereld zijn steekproeven.

Waarom we de verschillen oplossen

Je vraagt ​​je misschien af: waarom niet gewoon het gemiddelde van de ruwe verschillen ten opzichte van het gemiddelde?

Het probleem is dat positieve en negatieve afwijkingen elkaar opheffen. Voor de bovenstaande gegevensset liggen sommige waarden boven het gemiddelde en andere onder het gemiddelde. Als je ze allemaal bij elkaar optelt zonder te kwadrateren, krijg je altijd nul.

Door kwadrateren worden de negatieve signalen weggenomen, zodat alle afwijkingen positief bijdragen aan de totale spreiding.

Praktische toepassingen

Financiën: Portefeuillevariantie meet het beleggingsrisico. Een portefeuille met een variantie van 0,04 is minder riskant dan een portefeuille met een variantie van 0,16 – zelfs als beide hetzelfde verwachte rendement hebben.

Kwaliteitscontrole: Een productieproces met weinig variatie produceert een consistentere output. Hoge variantie betekent onvoorspelbare resultaten.

Wetenschap: In experimenten duidt een hoge variantie tussen herhaalde metingen op meetfouten of ongecontroleerde variabelen.

Sportanalyse: De variantie in spelersprestaties vertelt je of een speler consistent (lage variantie) of streaky (hoge variantie) is.

Veelvoorkomende fouten

N gebruiken in plaats van n − 1 voor steekproeven — Dit onderschat de werkelijke populatievariantie. Gebruik altijd n − 1 voor voorbeeldgegevens.

Vergeten te kwadrateren — Een veel voorkomende fout is het middelen van de ruwe verschillen in plaats van de gekwadrateerde verschillen.

Verwarrende variantie met bereik — Bereik is eenvoudigweg het maximum min het minimum. Variantie houdt rekening met alle datapunten, niet alleen met de extremen.

Snelle referentie

Formule Wanneer te gebruiken
CODE0 Volledige bevolking
CODE0 Steekproef uit de populatie
CODE0 Om de standaarddeviatie te krijgen

Lees volgende