Tilastot ovat epävarmuuden kieli – työkalu, jonka avulla voimme tehdä johtopäätöksiä epätäydellisistä tiedoista. Lukitpa sitten uutiskyselyä, tulkitset kliinisen tutkimuksen tuloksia tai analysoit omia tietojasi, näiden ydinkäsitteiden ymmärtäminen tekee sinusta paljon kriittisemmän lukijan.

Kuvailevat tilastot: tietojen yhteenveto

Ennen kuin voit analysoida tietoja, sinun on kuvattava se. Tärkeimmät mittarit ovat keskisuuntaus (missä on keskikohta?) ja levitys (kuinka vaihteleva data on?).

Keskiarvo, mediaani ja tila

aritmeettinen keskiarvo on summa jaettuna luvulla. Se on tutuin keskiarvo, mutta on erittäin herkkä poikkeaville arvoille.

mediaani on keskiarvo, kun tiedot lajitellaan. Se on kestävämpi – yksittäinen ääriarvo ei liikuta sitä paljon.

mode on yleisin arvo. Hyödyllinen kategorisille tiedoille; vähemmän hyödyllinen jatkuvissa mittauksissa.

Tietojoukko Tarkoittaa Mediaani tila
2, 4, 4, 6, 8 4.8 4 4
2, 4, 4, 6, 100 23.2 4 4

Huomaa, kuinka yksi ääriarvo (100) muuttaa keskiarvoa dramaattisesti, mutta jättää mediaanin koskematta. Tästä syystä asuntojen hintatilastot käyttävät mediaania – kourallinen usean miljoonan punnan kartanoita tekisi keskihinnasta harhaanjohtavia.

Keskihajonta ja varianssi

Varianssi mittaa keskimääräisen neliöidyn poikkeaman keskiarvosta:

σ² = Σ(xi - x̄)² / n

Keskihajonta on varianssin neliöjuuri – se on samoissa yksiköissä kuin alkuperäiset tiedot, mikä tekee siitä tulkittavissa:

σ = √[Σ(xi - x̄)² / n]

Sääntö 68-95-99.7 normaalisti jakautuneille tiedoille:

  • 68 % arvoista on yhden keskihajonnan sisällä
  • 95 % 2 standardipoikkeaman sisällä
  • 99,7 % 3 standardipoikkeaman sisällä

Huomaa: Käytä n:ää perusjoukon keskihajonnan nimittäjässä; käytä arvoa n−1 otosestimaatiin (tätä kutsutaan Besselin korjaukseksi ja se korjaa näytteissä esiintyvän lievän aliarvioinnin).

Normaali jakelu

Normaali (Gaussin) jakauma on kellomainen käyrä, joka esiintyy kaikkialla luonnossa ja tilastoissa. Sitä kuvaa täysin kaksi parametria: keskiarvo (μ) ja keskihajonta (σ).

z-piste muuntaa minkä tahansa arvon "kuinka monta standardipoikkeamaa keskiarvosta":

z = (x - μ) / σ

Z-pistemäärä 1,96 vastaa 97,5:tä prosenttipistettä – arvoa, jonka yläpuolella on vain 2,5 % jakaumasta. Tämä näkyy jatkuvasti tilastoissa luottamusvälien vuoksi.

Keskirajalause on syy, miksi normaalijakauma on niin tärkeä: riippumatta alkuperäisen populaation muodosta, otoskeskiarvojakauma lähestyy normaalia otoksen koon kasvaessa. Tästä syystä niin monet tilastolliset testit olettavat normaalia, vaikka raakadata ei ole normaalisti jakautunut.

Luottamusvälit

95 %:n luottamusväli ei tarkoita, että "todellinen arvo on tällä alueella 95 %:n todennäköisyydellä". Se tarkoittaa: "Jos toistamme tämän näytteenottoprosessin monta kertaa, 95% laskemistamme intervalleista sisältäisi todellisen arvon."

Osuudelle p näytteestä, jonka koko on n:

CI = p ± z × √(p(1-p)/n)

95 %:n varmuudella z = 1,96. 99 %:lle z = 2,576.

Virhemarginaali on vain ±-osa: z × √(p(1-p)/n). Kun kyselyssä ilmoitetaan "±3 prosenttiyksikköä", tämä on virhemarginaali.

Hypoteesin testaus

Jokainen hypoteesitesti noudattaa samaa rakennetta:

  1. H₀ (nollahypoteesi): Oletus – yleensä "ei vaikutusta", "ei eroa", "ei yhteyttä"
  2. H₁ (vaihtoehtoinen hypoteesi): mitä yrität todistaa
  3. Testitilasto: tiedoista laskettu luku, joka mittaa kuinka kaukana H₀:sta data on
  4. p-arvo: Todennäköisyys havaita tulos vähintään tässä äärimmäisessä, jos H₀ olisi tosi

p-arvo selitetty

P-arvo 0,03 tarkoittaa: "Jos vaikutusta ei todellakaan olisi, näkisimme tämän äärimmäisen datan sattumalta vain 3 % ajasta." Tätä pidetään yleensä riittävän merkittävänä H₀ hylkäämiseen.

Mitä p < 0,05 EI tarkoita:

  • Se ei tarkoita, että vaikutus olisi todellinen 95 prosentin todennäköisyydellä
  • Se ei tarkoita, että vaikutus olisi käytännössä tärkeä
  • Se ei tarkoita, että H₀ on väärä

Tyypin I ja tyypin II virheet:

H₀ on totta H₀ on väärä
Hylkää H₀ Tyypin I virhe (väärä positiivinen) Korjata
H₀ hylkääminen epäonnistui Korjata Tyypin II virhe (väärä negatiivinen)

α (merkittävyystaso) = tyypin I virheprosentti, yleensä 0,05 β = tyypin II virhesuhde; Teho = 1 − β, yleensä tavoite on 0,80

T-testi

T-testi vertaa keskiarvoja ryhmien välillä. Kahden otoksen t-tilasto on:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Suuri |t| tarkoittaa, että ryhmät ovat kaukana toisistaan ​​suhteessa ryhmän sisäiseen vaihteluun. Vertaa kriittiseen arvoon (tai laske p-arvo) sopivilla vapausasteilla.

Milloin sitä käytetään: Vertailemme kahta riippumattomien ryhmien keskiarvoa, kun tiedot ovat suunnilleen normaaleja tai n > 30.

Korrelaatio

Pearsonin r mittaa kahden muuttujan välisen lineaarisen suhteen vahvuutta:

  • r = +1: Täydellinen positiivinen lineaarinen suhde
  • r = 0: Ei lineaarista suhdetta
  • r = −1: Täydellinen negatiivinen lineaarinen suhde
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

(r neliö) kertoo X:llä selitetyn Y:n varianssin osuuden. Jos r = 0,7, niin R² = 0,49 – X selittää 49 % Y:n vaihtelusta.

Spearmanin ρ (rho) tekee saman asian, mutta käyttää arvoja eikä raaka-arvoja, mikä tekee siitä kestävän poikkeaville arvoille ja sopivan järjestysdatalle.

Muista: Korrelaatio ≠ syy-yhteys. Jäätelön myynti ja hukkumisluvut korreloivat vahvasti (molemmat huippukesällä), mutta jäätelö ei aiheuta hukkumista.

Tehosteen koko

Tilastollinen merkitsevyys kertoo, onko vaikutus todellinen; tehosteen koko kertoo, kuinka suuri se on. Cohenin d kahden välineen vertailuun:

d = (μ₁ - μ₂) / σ_pooled
Cohenin d Tulkinta
0.2 Pieni
0.5 Keskikokoinen
0.8 Suuri

Erittäin merkittävä p-arvo d = 0,1 tarkoittaa, että olet havainnut todellisen, mutta triviaalisen pienen vaikutuksen – mahdollisesti siksi, että näytteesi oli valtava. Ilmoita aina tehosteiden koot p-arvojen rinnalla.

Chi-neliötesti

Chi-neliö (χ²) -testi kysyy: "Poikkeavatko havaitut määrät siitä, mitä odotimme sattumalta?"

χ² = Σ (Observed - Expected)² / Expected

Käytä sitä, kun tietosi ovat kategorisia – esimerkiksi testaamalla, onko kuolin reilu tai onko hoidon tulos hoitoryhmästä riippumaton.

Oikean testin valinta

Tilanne Testata
Vertaa yhtä keskiarvoa tunnettuun arvoon Yhden näytteen t-testi
Vertaa kahta itsenäistä keinoa Kahden otoksen t-testi
Vertaa kahta parillista keskiarvoa Parillinen t-testi
Vertaa 3+ tarkoittaa ANOVA
Vertaa 3+ tarkoittaa (ei normaali) Kruskal-Wallis
Kahden jatkuvan muuttujan välinen assosiaatio Pearson/Spearman-korrelaatio
Vertaa kategorisia mittasuhteita Chi-neliö
Kaksi ryhmää, epänormaali jakautuminen Mann-Whitney U

Yleisiä virheitä

Tukistus: Testin suorittaminen toistuvasti ja pysäyttäminen, kun p < 0,05 lisää tyypin I virhettä dramaattisesti. Suunnittele otoskoko ennen tietojen keräämistä.

Useita vertailuja: 20 riippumattoman testin suorittaminen arvolla α = 0,05 tuottaa keskimäärin yhden väärän positiivisen. Käytä Bonferroni-korjausta tai hallitse väärien havaitsemisprosenttia.

Oletusarvojen huomioimatta jättäminen: Useimmat testit olettavat satunnaista otantaa, havaintojen riippumattomuutta ja (t-testeissä) likimääräistä normaalia. Näiden rikkominen heikentää tuloksia.

Käytä [Z-pistelaskuria] (/en/math/statistics/z-score-calc), [Otoskokolaskuria] (/en/math/statistics/sample-size), [t-testilaskuria] (/en/math/statistics/t-test) ja korrelaatiolaskuria/relaatiolaskuri to/t omien tietojesi kautta.