A variancia azt méri, hogy egy számkészlet mennyire oszlik el az átlagtól. Ez az egyik legfontosabb fogalom a statisztikákban – a pénzügyekben a befektetési kockázat mérésére, a tudományban a kísérleti konzisztencia felmérésére és a mindennapi adatelemzésre használják.

Mi az a variancia?

A variancia az átlagtól való négyzetes különbségek átlaga. Az alacsony szórás azt jelenti, hogy az adatpontok szorosan az átlag körül csoportosulnak. A nagy szórás azt jelenti, hogy széles körben elterjedtek.

Két típusa van:

  • Populációs variancia (σ²) – akkor használatos, ha a teljes sokaságra vonatkozóan rendelkezik adatokkal
  • Minta szórása (s²) – akkor használatos, ha az adatok egy nagyobb sokaságból származó minta

A gyakorlatban szinte mindig mintavarianciát fog használni.

A szórásképlet

Népességi eltérés

σ² = Σ(xᵢ - μ)² / N

Ahol:

  • xᵢ = minden adatpont
  • μ = a népesség átlaga
  • N = adatpontok száma

Minta eltérés

s² = Σ(xᵢ - x̄)² / (n - 1)

Ahol:

  • x̄ = a minta átlaga
  • n - 1 = szabadsági fokok (Bessel-korrekció)

A CODE0 a minta varianciájában korrigálja azt a tényt, hogy a minta hajlamos alábecsülni a sokaság valódi terjedését.

Példa lépésről lépésre

Adatkészlet: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

1. lépés: Számítsa ki az átlagot

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

2. lépés: Vonja ki az átlagot az egyes értékekből, és emelje négyzetre az eredményt

Érték Érték − Átlag (Érték − átlag)²
4 4 − 5,2 = −1,2 1.44
8 8 − 5,2 = 2,8 7.84
6 6 − 5,2 = 0,8 0.64
5 5 − 5,2 = −0,2 0.04
3 3 − 5,2 = −2,2 4.84
2 2 − 5,2 = −3,2 10.24
8 8 − 5,2 = 2,8 7.84
9 9 − 5,2 = 3,8 14.44
2 2 − 5,2 = −3,2 10.24
5 5 − 5,2 = −0,2 0.04

3. lépés: Adja össze a különbségek négyzetét

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

4. lépés: Oszd el n − 1-gyel (minta szórása)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

A minta szórása 6,4.

Szórás vs szórás

A szórás egyszerűen a variancia négyzetgyöke:

s = √s² = √6.4 ≈ 2.53

A szórást az eredeti adatokkal megegyező mértékegységben adjuk meg, így könnyebben értelmezhető. Ha az adatok kilogrammban vannak megadva, akkor a szórása kilogrammban van megadva. Az eltérés kilogrammban². Ez az oka annak, hogy a szórást gyakrabban jelentik, de a szórást számos statisztikai számításban használják.

Népesség vs minta: Mikor kell használni mindegyiket

Helyzet Használat
Adatai vannak a csoport minden tagjáról Populációs variancia (÷ N)
Az Ön adatai egy nagyobb csoportból származó minták Minta szórása (÷ n − 1)
Összehasonlítva más statisztikai tesztekkel Általában minta szórása
Az Ön adatkészlete a teljes kép Populációs variancia

Ha kétségei vannak, használjon mintavarianciát. A legtöbb valós adatkészlet minta.

Miért négyszerezzük a különbségeket

Felmerülhet benned a kérdés: miért nem csak átlagoljuk a nyers különbségeket az átlagtól?

A probléma az, hogy a pozitív és negatív eltérések megszűnnek. A fenti adatkészlet esetében néhány érték az átlag felett van, néhány pedig alatta van. Ha az összeset négyzetre emelés nélkül összeadja, mindig nullát kap.

A négyzetesítés eltávolítja a negatív előjeleket, így minden eltérés pozitívan járul hozzá a teljes spreadhez.

Gyakorlati alkalmazások

Pénzügyek: A portfólió varianciája a befektetési kockázatot méri. Egy 0,04-es szórással rendelkező portfólió kevésbé kockázatos, mint egy 0,16-os szórással rendelkező portfólió – még akkor is, ha mindkettőnek azonos a várható hozama.

Minőségellenőrzés: Az alacsony szórású gyártási folyamat egyenletesebb teljesítményt eredményez. A nagy szórás kiszámíthatatlan eredményeket jelent.

Tudomány: A kísérletekben az ismételt mérések közötti nagy eltérés mérési hibára vagy ellenőrizetlen változókra utal.

Sportelemzés: A játékosteljesítmény varianciája megmutatja, hogy egy játékos konzisztens (alacsony szórás) vagy sorozatos (nagy szórás).

Gyakori hibák

N-t használunk az n − 1 helyett a mintákhoz — Ez alábecsüli a valódi populációs varianciát. Mindig n − 1-et használjon mintaadatokhoz.

Elfelejtés négyzetre emelni – Gyakori hiba a nyers különbségek átlagolása, nem pedig a négyzetes különbségek.

A tartomány zavaró eltérése — A tartomány egyszerűen a maximum mínusz a minimum. A szórás minden adatpontot figyelembe vesz, nem csak a szélsőségeket.

Gyors referencia

Képlet Mikor kell használni
KÓD0 Teljes lakosság
KÓD0 Minta a lakosságból
KÓD0 A szóráshoz

Olvassa el a következőt