Varianssi mittaa, kuinka lukujen joukko on jakautunut niiden keskiarvosta. Se on yksi tärkeimmistä tilastojen käsitteistä – sitä käytetään rahoituksessa sijoitusriskin mittaamiseen, tieteessä kokeellisen johdonmukaisuuden arvioimiseen ja jokapäiväisessä data-analyysissä.
Mikä on varianssi?
Varianssi on keskiarvon neliöityjen erojen keskiarvo. Alhainen varianssi tarkoittaa, että datapisteet klusteroituvat tiukasti keskiarvon ympärille. Suuri varianssi tarkoittaa, että ne ovat laajalle levinneitä.
Niitä on kahta tyyppiä:
- Populaatiovarianssi (σ²) – käytetään, kun sinulla on tietoja koko väestöstä
- Otosvarianssi (s²) – käytetään, kun tietosi ovat otos suuremmasta populaatiosta
Käytännössä käytät lähes aina otosvarianssia.
Varianssikaava
Väestövarianssi
σ² = Σ(xᵢ - μ)² / N
Jossa:
- xᵢ = jokainen datapiste
- μ = väestön keskiarvo
- N = tietopisteiden lukumäärä
Näytevarianssi
s² = Σ(xᵢ - x̄)² / (n - 1)
Jossa:
- x̄ = näytteen keskiarvo
- n - 1 = vapausasteet (Besselin korjaus)
Otosvarianssin CODE0 korjaa sen tosiasian, että otoksella on taipumus aliarvioida populaation todellista leviämistä.
Vaiheittainen esimerkki
Tietosarja: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5
Vaihe 1: Laske keskiarvo
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
Vaihe 2: Vähennä keskiarvo kustakin arvosta ja neliötä tulos
| Arvo | Arvo − Keskiarvo | (Arvo − Keskiarvo)² |
|---|---|---|
| 4 | 4 − 5,2 = −1,2 | 1.44 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 6 | 6 − 5,2 = 0,8 | 0.64 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
| 3 | 3 − 5,2 = −2,2 | 4.84 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 9 | 9 − 5,2 = 3,8 | 14.44 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
Vaihe 3: Summaa neliöerot
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
Vaihe 4: jaa n − 1:llä (otosvarianssi)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
Otosvarianssi on 6,4.
Varianssi vs keskihajonta
Keskihajonta on yksinkertaisesti varianssin neliöjuuri:
s = √s² = √6.4 ≈ 2.53
Keskihajonta ilmaistaan samoissa yksiköissä kuin alkuperäiset tiedot, mikä helpottaa tulkintaa. Jos tietosi ovat kilogrammoina, keskihajonta on kilogrammoina. Varianssi on kilogrammoina². Tästä syystä keskihajonta raportoidaan yleisemmin, mutta varianssia käytetään monissa tilastolaskelmissa.
Väestö vs näyte: Milloin kutakin käyttää
| Tilanne | Käyttää |
|---|---|
| Sinulla on tietoja jokaisesta ryhmän jäsenestä | Populaatiovarianssi (÷ N) |
| Tietosi ovat näyte suuremmasta ryhmästä | Otosvarianssi (÷ n − 1) |
| Verrattuna muihin tilastollisiin testeihin | Yleensä otosvarianssi |
| Tietojoukkosi on täydellinen kuva | Väestön varianssi |
Jos olet epävarma, käytä otosvarianssia. Useimmat reaalimaailman tietojoukot ovat näytteitä.
Miksi me neliöimme erot
Saatat ihmetellä: miksi ei vain lasketa raakaa eroa keskiarvoon?
Ongelmana on, että positiiviset ja negatiiviset poikkeamat kumoutuvat. Yllä olevan tietojoukon arvot ovat keskiarvon yläpuolella ja osa sen alapuolella. Jos lasket ne kaikki yhteen ilman neliöintiä, saat aina nollan.
Neliöinti poistaa negatiiviset merkit, joten kaikki poikkeamat vaikuttavat positiivisesti kokonaiserotukseen.
Käytännön sovellukset
Rahoitus: Salkun varianssi mittaa sijoitusriskiä. Salkku, jonka varianssi on 0,04, on pienempi riski kuin salkku, jonka varianssi on 0,16, vaikka molemmilla olisi sama odotettu tuotto.
Laadunvalvonta: Pienen varianssin omaava valmistusprosessi tuottaa tasaisemman tuotannon. Suuri varianssi tarkoittaa arvaamattomia tuloksia.
Tiede: Kokeissa suuri varianssi toistuvien mittausten välillä viittaa mittausvirheeseen tai hallitsemattomiin muuttujiin.
Urheiluanalytiikka: Pelaajien suorituskyvyn vaihtelu kertoo, onko pelaaja johdonmukainen (pieni varianssi) vai putoava (suuri varianssi).
Yleisiä virheitä
N:n käyttäminen n − 1:n sijaan näytteille — Tämä aliarvioi todellisen populaation varianssin. Käytä aina arvoa n − 1 esimerkkitiedoille.
Neliöinti unohtaminen — Yleinen virhe on raakaerojen keskiarvon laskeminen neliöerojen sijaan.
Sekava varianssi vaihteluvälin kanssa — Alue on yksinkertaisesti maksimi miinus minimi. Varianssi ottaa huomioon kaikki datapisteet, ei vain ääripäät.
Pikaopas
| Kaava | Milloin käyttää |
|---|---|
| KOODI0 | Täysi väestö |
| KOODI0 | Näyte väestöstä |
| KOODI0 | Saadaksesi keskihajonnan |