Variantie meet hoe verspreid een reeks getallen zich ten opzichte van hun gemiddelde bevindt. Het is een van de belangrijkste concepten in de statistiek: het wordt in de financiële wereld gebruikt om investeringsrisico's te meten, in de wetenschap om de consistentie van experimenten te beoordelen, en in de dagelijkse data-analyse.
Wat is variantie?
Variantie is het gemiddelde van de gekwadrateerde verschillen met het gemiddelde. Een lage variantie betekent dat de datapunten strak rond het gemiddelde liggen. Een hoge variantie betekent dat ze wijd verspreid zijn.
Er zijn twee soorten:
- Populatievariantie (σ²) — gebruikt als u gegevens voor de gehele populatie heeft
- Steekproefvariantie (s²) — gebruikt wanneer uw gegevens een steekproef uit een grotere populatie zijn
In de praktijk zul je bijna altijd steekproefvariantie gebruiken.
De variantieformule
Bevolkingsvariantie
σ² = Σ(xᵢ - μ)² / N
Waar:
- xᵢ = elk gegevenspunt
- μ = het populatiegemiddelde
- N = aantal datapunten
Voorbeeldvariantie
s² = Σ(xᵢ - x̄)² / (n - 1)
Waar:
- x̄ = het steekproefgemiddelde
- n - 1 = vrijheidsgraden (Bessels correctie)
De CODE0 in de steekproefvariantie corrigeert voor het feit dat een steekproef de neiging heeft de werkelijke spreiding van de populatie te onderschatten.
Stapsgewijs voorbeeld
Gegevenset: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5
Stap 1: Bereken het gemiddelde
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
Stap 2: Trek het gemiddelde van elke waarde af en kwadraat het resultaat
| Waarde | Waarde − Gemiddelde | (Waarde − Gemiddelde)² |
|---|---|---|
| 4 | 4 − 5,2 = −1,2 | 1.44 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 6 | 6 − 5,2 = 0,8 | 0.64 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
| 3 | 3 − 5,2 = −2,2 | 4.84 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 9 | 9 − 5,2 = 3,8 | 14.44 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
Stap 3: Tel de gekwadrateerde verschillen op
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
Stap 4: delen door n − 1 (steekproefvariantie)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
De steekproefvariantie is 6,4.
Variantie versus standaarddeviatie
Standaarddeviatie is eenvoudigweg de vierkantswortel van variantie:
s = √s² = √6.4 ≈ 2.53
De standaardafwijking wordt uitgedrukt in dezelfde eenheden als de originele gegevens, waardoor deze gemakkelijker te interpreteren zijn. Als uw gegevens in kilogrammen zijn, is de standaarddeviatie in kilogrammen. Variantie is in kilogram². Dit is de reden waarom standaarddeviatie vaker wordt gerapporteerd, maar variantie wordt in veel statistische berekeningen gebruikt.
Populatie versus steekproef: wanneer moet u ze gebruiken?
| Situatie | Gebruik |
|---|---|
| U beschikt over gegevens voor elk lid van de groep | Bevolkingsvariantie (÷ N) |
| Uw gegevens zijn een voorbeeld uit een grotere groep | Steekproefvariantie (÷ n − 1) |
| Vergelijking met andere statistische tests | Meestal steekproefvariantie |
| Uw dataset is het complete plaatje | Bevolkingsvariantie |
Gebruik bij twijfel steekproefvariantie. De meeste datasets uit de echte wereld zijn steekproeven.
Waarom we de verschillen oplossen
Je vraagt je misschien af: waarom niet gewoon het gemiddelde van de ruwe verschillen ten opzichte van het gemiddelde?
Het probleem is dat positieve en negatieve afwijkingen elkaar opheffen. Voor de bovenstaande gegevensset liggen sommige waarden boven het gemiddelde en andere onder het gemiddelde. Als je ze allemaal bij elkaar optelt zonder te kwadrateren, krijg je altijd nul.
Door kwadrateren worden de negatieve signalen weggenomen, zodat alle afwijkingen positief bijdragen aan de totale spreiding.
Praktische toepassingen
Financiën: Portefeuillevariantie meet het beleggingsrisico. Een portefeuille met een variantie van 0,04 is minder riskant dan een portefeuille met een variantie van 0,16 – zelfs als beide hetzelfde verwachte rendement hebben.
Kwaliteitscontrole: Een productieproces met weinig variatie produceert een consistentere output. Hoge variantie betekent onvoorspelbare resultaten.
Wetenschap: In experimenten duidt een hoge variantie tussen herhaalde metingen op meetfouten of ongecontroleerde variabelen.
Sportanalyse: De variantie in spelersprestaties vertelt je of een speler consistent (lage variantie) of streaky (hoge variantie) is.
Veelvoorkomende fouten
N gebruiken in plaats van n − 1 voor steekproeven — Dit onderschat de werkelijke populatievariantie. Gebruik altijd n − 1 voor voorbeeldgegevens.
Vergeten te kwadrateren — Een veel voorkomende fout is het middelen van de ruwe verschillen in plaats van de gekwadrateerde verschillen.
Verwarrende variantie met bereik — Bereik is eenvoudigweg het maximum min het minimum. Variantie houdt rekening met alle datapunten, niet alleen met de extremen.
Snelle referentie
| Formule | Wanneer te gebruiken |
|---|---|
| CODE0 | Volledige bevolking |
| CODE0 | Steekproef uit de populatie |
| CODE0 | Om de standaarddeviatie te krijgen |