Varians måler, hvor spredt et sæt tal er fra deres middelværdi. Det er et af de vigtigste begreber i statistik — brugt i finansiering til at måle investeringsrisiko, i videnskab til at vurdere eksperimentel konsistens og i dagligdags dataanalyse.
Hvad er varians?
Varians er gennemsnittet af de kvadrerede forskelle fra middelværdien. En lav varians betyder, at datapunkterne klynger tæt omkring gennemsnittet. En høj varians betyder, at de er vidt spredt.
Der er to typer:
- Befolkningsvarians (σ²) — bruges, når du har data for hele populationen
- Sample varians (s²) — bruges, når dine data er en stikprøve fra en større population
I praksis vil du næsten altid bruge prøvevarians.
Variansformlen
Befolkningsvariance
σ² = Σ(xᵢ - μ)² / N
Hvor:
- xᵢ = hvert datapunkt
- μ = befolkningsgennemsnittet
- N = antal datapunkter
Eksempelvarians
s² = Σ(xᵢ - x̄)² / (n - 1)
Hvor:
- x̄ = prøvegennemsnittet
- n - 1 = frihedsgrader (Bessels korrektion)
CODE0 i stikprøvevarians korrigerer for det faktum, at en stikprøve har en tendens til at undervurdere den sande spredning af populationen.
Trin-for-trin eksempel
Datasæt: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5
Trin 1: Beregn middelværdien
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
Trin 2: Træk middelværdien fra hver værdi, og kvadreret resultatet
| Værdi | Værdi − Middelværdi | (Værdi − Middel)² |
|---|---|---|
| 4 | 4 − 5,2 = −1,2 | 1.44 |
| 8 | 8 - 5,2 = 2,8 | 7.84 |
| 6 | 6 - 5,2 = 0,8 | 0.64 |
| 5 | 5 - 5,2 = -0,2 | 0.04 |
| 3 | 3 − 5,2 = −2,2 | 4.84 |
| 2 | 2 - 5,2 = -3,2 | 10.24 |
| 8 | 8 - 5,2 = 2,8 | 7.84 |
| 9 | 9 - 5,2 = 3,8 | 14.44 |
| 2 | 2 - 5,2 = -3,2 | 10.24 |
| 5 | 5 - 5,2 = -0,2 | 0.04 |
Trin 3: Sum de kvadratiske forskelle
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
Trin 4: Divider med n − 1 (stikprøvevarians)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
Prøvevariansen er 6,4.
Varians vs standardafvigelse
Standardafvigelse er simpelthen kvadratroden af varians:
s = √s² = √6.4 ≈ 2.53
Standardafvigelse er udtrykt i de samme enheder som de originale data, hvilket gør det lettere at fortolke. Hvis dine data er i kilogram, er standardafvigelsen i kilogram. Variansen er i kilogram². Dette er grunden til, at standardafvigelse er mere almindeligt rapporteret - men varians bruges i mange statistiske beregninger.
Population vs Sample: Hvornår skal man bruge hver
| Situation | Bruge |
|---|---|
| Du har data for hvert medlem af gruppen | Befolkningsvarians (÷ N) |
| Dine data er et eksempel fra en større gruppe | Prøvevarians (÷ n − 1) |
| Sammenligning med andre statistiske tests | Normalt prøvevarians |
| Dit datasæt er det komplette billede | Befolkningsvariation |
Når du er i tvivl, skal du bruge prøvevarians. De fleste datasæt fra den virkelige verden er prøver.
Hvorfor vi kvadrerer forskellene
Du undrer dig måske: hvorfor ikke bare gennemsnittet de rå forskelle fra gennemsnittet?
Problemet er, at positive og negative afvigelser udligner. For datasættet ovenfor er nogle værdier over middelværdien, og nogle er under. Hvis du lægger dem alle sammen uden at kvadrere, får du altid nul.
Kvadring fjerner de negative fortegn, så alle afvigelser bidrager positivt til den samlede spredning.
Praktiske applikationer
Finans: Porteføljevarians måler investeringsrisiko. En portefølje med varians på 0,04 er mindre risikabel end en med varians på 0,16 - også selvom begge har det samme forventede afkast.
Kvalitetskontrol: En fremstillingsproces med lav varians producerer mere ensartet output. Høj varians betyder uforudsigelige resultater.
Videnskab: I eksperimenter tyder høj varians mellem gentagne målinger på målefejl eller ukontrollerede variabler.
Sportsanalyse: Spillerens præstationsvarians fortæller dig, om en spiller er konsistent (lav varians) eller stribet (høj varians).
Almindelige fejl
Brug af N i stedet for n − 1 til stikprøver — Dette undervurderer den sande populationsvarians. Brug altid n − 1 til eksempeldata.
Glemte at kvadrere — En almindelig fejl er gennemsnittet af de rå forskelle i stedet for de kvadrerede forskelle.
Forvirrende varians med rækkevidde — Rækkevidde er simpelthen maksimum minus minimum. Varians tegner sig for alle datapunkter, ikke kun ekstremerne.
Hurtig reference
| Formel | Hvornår skal bruges |
|---|---|
| KODE0 | Fuld befolkning |
| KODE0 | Prøve fra population |
| KODE0 | For at få standardafvigelse |
Læs næste
- [Sådan beregner du standardafvigelse](/en/blog/how-to-calculate-standard deviation)
- Hvad er standardafvigelse?
- Sådan finder du medianen