A szórás kiszámítása – lépésről lépésre

A szórás a statisztika legszélesebb körben használt mérőszáma. Megmutatja, hogy egy tipikus érték milyen messze van az átlagtól – függetlenül attól, hogy az adatok szorosan fürtözöttek vagy széles körben szétszórtak-e. Miután egyszer végigdolgozta a számítást kézzel, a koncepció intuitívvá válik.

Mit mond a szórás

Ha a tanulók osztályának átlagos vizsgapontszáma 70 5-ös szórással, akkor a legtöbb pontszám 65 és 75 közé esik. Ha a szórás 20 lenne, a pontszámok sokkal szélesebbek lennének – 50-től 90-ig és még tovább.

A kis szórás konzisztenciát jelent. A nagy változatosságot jelent.

Népesség vs minta szórás

Két változat létezik, és a megfelelő kiválasztása számít:

Népesség szórása (σ): Akkor használja, ha az Ön számára fontos csoport minden tagjáról rendelkezik adatokkal. n-al osztja.

Minta szórása (s): Akkor használja, ha az adatok egy nagyobb sokaságból vett minta. Osztja n − 1-el (Bessel-korrekció, amely a mintavételezéssel bevezetett bizonytalanságot magyarázza).

A gyakorlatban szinte mindig mintaszórást használ – hacsak nem egy teljes népszámlálást vagy egy ellenőrzött adatkészletet elemez, amelyben nincsenek hiányzó tagok.

Lépésről lépésre történő számítás

Adatkészlet: 4, 7, 13, 2, 1 (5 értékből álló minta)

1. lépés: Számítsa ki az átlagot

Mean (x̄) = (4 + 7 + 13 + 2 + 1) / 5 = 27 / 5 = 5.4

2. lépés: Keresse meg az átlagtól való minden eltérést

Vonja le az átlagot az egyes értékekből:

Érték (x)	Eltérés (x − x̄)
4	4 − 5,4 = −1,4
7	7 − 5,4 = +1,6
13	13 − 5,4 = +7,6
2	2 − 5,4 = −3,4
1	1 − 5,4 = −4,4

3. lépés: Minden eltérés négyzetes

A négyzetesítés kiküszöböli a negatív előjeleket és kiemeli a nagyobb eltéréseket:

Eltérés	Négyzetes eltérés
−1.4	1.96
+1.6	2.56
+7.6	57.76
−3.4	11.56
−4.4	19.36

4. lépés: Adja össze az eltérések négyzetét

Sum = 1.96 + 2.56 + 57.76 + 11.56 + 19.36 = 93.2

5. lépés: Oszd el n − 1-gyel (a minta szórásához)

Variance (s²) = 93.2 / (5 − 1) = 93.2 / 4 = 23.3

6. lépés: Vegye ki a négyzetgyököt

Standard deviation (s) = √23.3 = 4.83

Értelmezés: Az ebben az adatkészletben szereplő értékek általában körülbelül 4,83 egységnyire vannak az 5,4-es átlagtól.

A képlet kiírva

Minta szórása:

s = √[ Σ(x − x̄)² / (n − 1) ]

Népesség szórása:

σ = √[ Σ(x − μ)² / n ]

Ahol μ (mu) a népesség átlaga.

Az empirikus szabály (68-95-99.7 szabály)

A normál eloszlást követő adatok esetében a szórás megbízható összefüggést mutat az egyes tartományokon belüli adatok arányával:

Hatótávolság	Az adatok aránya
Átlag ± 1 SD	~68%
Átlag ± 2 SD	~95%
Átlag ± 3 SD	~99,7%

Alkalmazott példa: Az IQ-pontszámok átlaga 100, az SD pedig 15.

Az emberek 68%-a 85 és 115 közötti pontszámot szerez
95%-os pontszám 70 és 130 között
99,7%-os pontszám 55 és 145 között

Ez a szabály csak a normál elosztású adatokra vonatkozik. Ferde vagy nehéz eloszlások esetén használja helyette Csebisev egyenlőtlenségét.

Szórás vs szórás

A Szórás az eltérés négyzetes értéke (fent 5. lépés) – a szórás a négyzetgyök. Mindkét esetben a szórást mérik, de a szórást az eredeti adatokkal megegyező mértékegységben fejezik ki, így jobban értelmezhető.

Ha az adatok kilogrammban vannak megadva, akkor a szórása kilogrammban van megadva. A szórása kilogramm-négyzetben van megadva, amit nehezebb értelmesen értelmezni.

Gyakori alkalmazások

Pénzügyek: A befektetések volatilitásának mérése. A magas SD-vel rendelkező napi hozamú részvények volatilisabbak – nagyobb potenciális nyereség és nagyobb potenciális veszteség.

Minőségellenőrzés: A gyártás SD-t használ annak biztosítására, hogy a termékek a tűréshatáron belül maradjanak. A túl nagy SD-vel rendelkező folyamat túl sok hibás elemet eredményez.

Oktatás: A teszteredmények egységesítése. A z-pontszám azt mutatja meg, hogy egy pontszám hány szórással van az átlag felett vagy alatt: z = (x − átlag) / SD.

Tudomány: A mérési bizonytalanság kifejezése és a kísérleti eredmények összehasonlítása.

Parancsikon a számításhoz

Nagy adathalmazok esetén használja a számítási képletet, amely elkerüli az eltérések egyedi kiszámítását:

s² = [Σx² − (Σx)²/n] / (n − 1)

Ez matematikailag egyenértékű, de három helyett csak két áthaladást igényel az adatokon.

Használja [Szórás-kalkulátorunkat] (/en/math/statistics/standard-deviation) az SD, a variancia és a teljes bontás kiszámításához bármely megadott adatkészlethez.