Varians mäter hur spridd en uppsättning siffror är från deras medelvärde. Det är ett av de viktigaste begreppen inom statistik - används inom finans för att mäta investeringsrisk, inom vetenskap för att bedöma experimentell konsistens och i daglig dataanalys.

Vad är varians?

Varians är medelvärdet av de kvadratiska skillnaderna från medelvärdet. En låg varians innebär att datapunkterna samlas tätt runt genomsnittet. En hög varians betyder att de är vitt spridda.

Det finns två typer:

  • Befolkningsvarians (σ²) — används när du har data för hela populationen
  • Samplevarians (s²) — används när dina data är ett urval från en större population

I praktiken kommer du nästan alltid att använda provvarians.

Variansformeln

Befolkningsvarians

σ² = Σ(xᵢ - μ)² / N

Där:

  • xᵢ = varje datapunkt
  • μ = befolkningens medelvärde
  • N = antal datapunkter

Exempelvarians

s² = Σ(xᵢ - x̄)² / (n - 1)

Där:

  • x̄ = urvalets medelvärde
  • n - 1 = frihetsgrader (Bessels korrigering)

CODE0 i urvalsvarians korrigerar för det faktum att ett urval tenderar att underskatta den sanna spridningen av populationen.

Steg-för-steg exempel

Datamängd: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

Steg 1: Beräkna medelvärdet

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

Steg 2: Subtrahera medelvärdet från varje värde och kvadrera resultatet

Värde Värde − Medelvärde (Värde − Medelvärde)²
4 4 − 5,2 = −1,2 1.44
8 8 - 5,2 = 2,8 7.84
6 6 - 5,2 = 0,8 0.64
5 5 − 5,2 = −0,2 0.04
3 3 − 5,2 = −2,2 4.84
2 2 − 5,2 = −3,2 10.24
8 8 - 5,2 = 2,8 7.84
9 9 - 5,2 = 3,8 14.44
2 2 − 5,2 = −3,2 10.24
5 5 − 5,2 = −0,2 0.04

Steg 3: Summa skillnaderna i kvadrat

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

Steg 4: Dividera med n − 1 (provvarians)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

Urvalsvariationen är 6,4.

Varians vs standardavvikelse

Standardavvikelsen är helt enkelt kvadratroten av variansen:

s = √s² = √6.4 ≈ 2.53

Standardavvikelsen uttrycks i samma enheter som originaldata, vilket gör det lättare att tolka. Om din data är i kilogram är standardavvikelsen i kilogram. Variansen är i kilogram². Det är därför som standardavvikelse rapporteras vanligare - men varians används i många statistiska beräkningar.

Population vs Sample: När ska man använda varje

Situation Använda
Du har data för varje medlem i gruppen Populationsvarians (÷ N)
Din data är ett urval från en större grupp Provvarians (÷ n − 1)
Jämför med andra statistiska tester Vanligtvis provvariation
Ditt dataset är hela bilden Befolkningsvariation

När du är osäker, använd provvarians. De flesta datauppsättningar i verkligheten är exempel.

Varför vi gör skillnaderna

Du kanske undrar: varför inte bara genomsnittet av de råa skillnaderna från medelvärdet?

Problemet är att positiva och negativa avvikelser tar ut. För datauppsättningen ovan är vissa värden över medelvärdet och några är under. Lägger du ihop alla utan att kvadrera får du alltid noll.

Kvadrering tar bort de negativa tecknen, så alla avvikelser bidrar positivt till den totala spridningen.

Praktiska applikationer

Finans: Portföljvarians mäter investeringsrisk. En portfölj med en varians på 0,04 är mindre riskabel än en med en varians på 0,16 — även om båda har samma förväntade avkastning.

Kvalitetskontroll: En tillverkningsprocess med låg varians ger mer konsekvent produktion. Hög varians innebär oförutsägbara resultat.

Vetenskap: I experiment tyder hög varians mellan upprepade mätningar på mätfel eller okontrollerade variabler.

Sportanalys: Spelarprestandavarians talar om för dig om en spelare är konsekvent (låg varians) eller streaky (hög varians).

Vanliga misstag

Användning av N istället för n − 1 för urval — Detta underskattar den sanna populationsvariansen. Använd alltid n − 1 för exempeldata.

Glömmer att kvadrera — Ett vanligt fel är att medelvärdet av de råa skillnaderna är snarare än de kvadratiska skillnaderna.

Förvirrande varians med intervall — Räckvidd är helt enkelt det maximala minus det minsta. Varians står för alla datapunkter, inte bara extremerna.

Snabbreferens

Formel När ska användas
KOD0 Full befolkning
KOD0 Urval från population
KOD0 För att få standardavvikelse

Läs nästa