A variancia azt méri, hogy egy számkészlet mennyire oszlik el az átlagtól. Ez az egyik legfontosabb fogalom a statisztikákban – a pénzügyekben a befektetési kockázat mérésére, a tudományban a kísérleti konzisztencia felmérésére és a mindennapi adatelemzésre használják.
Mi az a variancia?
A variancia az átlagtól való négyzetes különbségek átlaga. Az alacsony szórás azt jelenti, hogy az adatpontok szorosan az átlag körül csoportosulnak. A nagy szórás azt jelenti, hogy széles körben elterjedtek.
Két típusa van:
- Populációs variancia (σ²) – akkor használatos, ha a teljes sokaságra vonatkozóan rendelkezik adatokkal
- Minta szórása (s²) – akkor használatos, ha az adatok egy nagyobb sokaságból származó minta
A gyakorlatban szinte mindig mintavarianciát fog használni.
A szórásképlet
Népességi eltérés
σ² = Σ(xᵢ - μ)² / N
Ahol:
- xᵢ = minden adatpont
- μ = a népesség átlaga
- N = adatpontok száma
Minta eltérés
s² = Σ(xᵢ - x̄)² / (n - 1)
Ahol:
- x̄ = a minta átlaga
- n - 1 = szabadsági fokok (Bessel-korrekció)
A CODE0 a minta varianciájában korrigálja azt a tényt, hogy a minta hajlamos alábecsülni a sokaság valódi terjedését.
Példa lépésről lépésre
Adatkészlet: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5
1. lépés: Számítsa ki az átlagot
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
2. lépés: Vonja ki az átlagot az egyes értékekből, és emelje négyzetre az eredményt
| Érték | Érték − Átlag | (Érték − átlag)² |
|---|---|---|
| 4 | 4 − 5,2 = −1,2 | 1.44 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 6 | 6 − 5,2 = 0,8 | 0.64 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
| 3 | 3 − 5,2 = −2,2 | 4.84 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 9 | 9 − 5,2 = 3,8 | 14.44 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
3. lépés: Adja össze a különbségek négyzetét
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
4. lépés: Oszd el n − 1-gyel (minta szórása)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
A minta szórása 6,4.
Szórás vs szórás
A szórás egyszerűen a variancia négyzetgyöke:
s = √s² = √6.4 ≈ 2.53
A szórást az eredeti adatokkal megegyező mértékegységben adjuk meg, így könnyebben értelmezhető. Ha az adatok kilogrammban vannak megadva, akkor a szórása kilogrammban van megadva. Az eltérés kilogrammban². Ez az oka annak, hogy a szórást gyakrabban jelentik, de a szórást számos statisztikai számításban használják.
Népesség vs minta: Mikor kell használni mindegyiket
| Helyzet | Használat |
|---|---|
| Adatai vannak a csoport minden tagjáról | Populációs variancia (÷ N) |
| Az Ön adatai egy nagyobb csoportból származó minták | Minta szórása (÷ n − 1) |
| Összehasonlítva más statisztikai tesztekkel | Általában minta szórása |
| Az Ön adatkészlete a teljes kép | Populációs variancia |
Ha kétségei vannak, használjon mintavarianciát. A legtöbb valós adatkészlet minta.
Miért négyszerezzük a különbségeket
Felmerülhet benned a kérdés: miért nem csak átlagoljuk a nyers különbségeket az átlagtól?
A probléma az, hogy a pozitív és negatív eltérések megszűnnek. A fenti adatkészlet esetében néhány érték az átlag felett van, néhány pedig alatta van. Ha az összeset négyzetre emelés nélkül összeadja, mindig nullát kap.
A négyzetesítés eltávolítja a negatív előjeleket, így minden eltérés pozitívan járul hozzá a teljes spreadhez.
Gyakorlati alkalmazások
Pénzügyek: A portfólió varianciája a befektetési kockázatot méri. Egy 0,04-es szórással rendelkező portfólió kevésbé kockázatos, mint egy 0,16-os szórással rendelkező portfólió – még akkor is, ha mindkettőnek azonos a várható hozama.
Minőségellenőrzés: Az alacsony szórású gyártási folyamat egyenletesebb teljesítményt eredményez. A nagy szórás kiszámíthatatlan eredményeket jelent.
Tudomány: A kísérletekben az ismételt mérések közötti nagy eltérés mérési hibára vagy ellenőrizetlen változókra utal.
Sportelemzés: A játékosteljesítmény varianciája megmutatja, hogy egy játékos konzisztens (alacsony szórás) vagy sorozatos (nagy szórás).
Gyakori hibák
N-t használunk az n − 1 helyett a mintákhoz — Ez alábecsüli a valódi populációs varianciát. Mindig n − 1-et használjon mintaadatokhoz.
Elfelejtés négyzetre emelni – Gyakori hiba a nyers különbségek átlagolása, nem pedig a négyzetes különbségek.
A tartomány zavaró eltérése — A tartomány egyszerűen a maximum mínusz a minimum. A szórás minden adatpontot figyelembe vesz, nem csak a szélsőségeket.
Gyors referencia
| Képlet | Mikor kell használni |
|---|---|
| KÓD0 | Teljes lakosság |
| KÓD0 | Minta a lakosságból |
| KÓD0 | A szóráshoz |
Olvassa el a következőt
- [Hogyan számítsuk ki a szórást] (/en/blog/how-to-calculate-standard-deviation)
- Mi az a szórás?
- Hogyan lehet megtalálni a mediánt