Štatistika je jazykom neistoty – nástrojom, ktorý nám umožňuje vyvodzovať závery z neúplných informácií. Či už čítate prieskum v správach, interpretujete výsledky klinickej štúdie alebo analyzujete svoje vlastné údaje, pochopenie týchto základných pojmov z vás urobí oveľa kritickejšieho čitateľa.
Popisná štatistika: Sumarizácia údajov
Skôr ako budete môcť analyzovať údaje, musíte ich opísať. Kľúčovými ukazovateľmi sú centrálna tendencia (kde je stred?) a spread (ako variabilné sú údaje?).
Priemer, Medián a Režim
Aritmetický priemer je súčet vydelený počtom. Je to najznámejší priemer, ale je veľmi citlivý na odľahlé hodnoty.
medián je stredná hodnota pri triedení údajov. Je robustnejší — jediná extrémna hodnota s ním veľmi nepohne.
Najčastejšou hodnotou je režim. Užitočné pre kategorické údaje; menej užitočné pre kontinuálne merania.
| Súbor údajov | Priemerná | Medián | Režim |
|---|---|---|---|
| 2, 4, 4, 6, 8 | 4.8 | 4 | 4 |
| 2, 4, 4, 6, 100 | 23.2 | 4 | 4 |
Všimnite si, ako jedna extrémna hodnota (100) dramaticky mení priemer, ale ponecháva medián nedotknutý. To je dôvod, prečo štatistika cien nehnuteľností používa medián – hŕstka sídiel v hodnote niekoľkých miliónov libier by spôsobila, že priemerné ceny sú zavádzajúce.
Štandardná odchýlka a rozptyl
Rozptyl meria priemernú štvorcovú odchýlku od priemeru:
σ² = Σ(xi - x̄)² / n
Smerodajná odchýlka je druhá odmocnina rozptylu – je v rovnakých jednotkách ako pôvodné údaje, vďaka čomu je interpretovateľná:
σ = √[Σ(xi - x̄)² / n]
Pravidlo 68-95-99.7 pre normálne distribuované údaje:
- 68 % hodnôt spadá do 1 štandardnej odchýlky od priemeru
- 95 % v rámci 2 štandardných odchýlok
- 99,7 % v rámci 3 štandardných odchýlok
Poznámka: Použite n v menovateli pre štandardnú odchýlku populácie; použite n−1 pre odhad vzorky (toto sa nazýva Besselova korekcia a koriguje mierne podhodnotenie, ktoré sa vyskytuje pri vzorkách).
Normálna distribúcia
Normálne (Gaussovo) rozdelenie je krivka v tvare zvona, ktorá sa objavuje všade v prírode a štatistikách. Je plne opísaná dvoma parametrami: priemer (μ) a štandardná odchýlka (σ).
z-skóre prevedie akúkoľvek hodnotu na „koľko štandardných odchýlok od priemeru“:
z = (x - μ) / σ
Z-skóre 1,96 zodpovedá 97,5 percentilu – hodnote, nad ktorou leží iba 2,5 % distribúcie. Toto sa neustále objavuje v štatistikách kvôli intervalom spoľahlivosti.
Veta centrálnej limity je dôvod, prečo na normálnom rozdelení tak záleží: bez ohľadu na tvar pôvodnej populácie sa distribúcia priemeru vzorky pri zväčšujúcej sa veľkosti vzorky blíži k normálu. To je dôvod, prečo toľko štatistických testov predpokladá normalitu, aj keď nespracované údaje nie sú normálne distribuované.
Intervaly spoľahlivosti
95 % interval spoľahlivosti neznamená, že „pravdepodobnosť, že skutočná hodnota je v tomto rozsahu, je 95 %. Znamená to: "ak by sme tento proces vzorkovania opakovali mnohokrát, 95% intervalov, ktoré sme vypočítali, by obsahovalo skutočnú hodnotu."
Pre podiel p zo vzorky veľkosti n:
CI = p ± z × √(p(1-p)/n)
Pre 95 % spoľahlivosť je z = 1,96. Pre 99 %, z = 2,576.
Rozpätie chyby je len časť ±: z × √(p(1-p)/n). Keď prieskum uvádza „±3 percentuálne body“, ide o hranicu chyby.
Testovanie hypotéz
Každý test hypotéz má rovnakú štruktúru:
- H₀ (nulová hypotéza): Predvolená hodnota – zvyčajne „žiadny účinok“, „žiadny rozdiel“, „žiadny vzťah“
- H₁ (alternatívna hypotéza): Na čo sa snažíte preukázať dôkazy
- Testovacia štatistika: Číslo vypočítané z údajov, ktoré meria, ako ďaleko od H₀ sú údaje
- p-value: Pravdepodobnosť pozorovania výsledku aspoň tohto extrému, ak by H₀ bola pravdivá
Vysvetlená p-hodnota
Hodnota p 0,03 znamená: „Ak by skutočne nedošlo k žiadnemu účinku, takéto extrémne údaje by sme videli náhodou iba v 3 % prípadov.“ To sa zvyčajne považuje za dostatočne významné na to, aby sa vylúčilo H₀.
Čo p < 0,05 NEZNAMENÁ:
- Neznamená to, že existuje 95% šanca, že účinok je skutočný
- Neznamená to, že účinok je prakticky dôležitý
- Neznamená to, že H₀ je nepravdivé
Chyby typu I a typu II:
| H₀ je pravda | H₀ je nepravdivé | |
|---|---|---|
| Odmietnuť H₀ | Chyba typu I (falošne pozitívny) | Správne |
| Neodmietnutie H₀ | Správne | Chyba typu II (falošne negatívna) |
α (úroveň významnosti) = chybovosť I. typu, zvyčajne 0,05 β = chybovosť typu II; Výkon = 1 − β, zvyčajne zameraný na 0,80
T-test
T-test porovnáva priemery medzi skupinami. Dvojvzorová t-štatistika je:
t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)
Veľký |t| znamená, že skupiny sú ďaleko od seba vzhľadom na variabilitu v rámci skupiny. Porovnajte s kritickou hodnotou (alebo vypočítajte p-hodnotu) s príslušnými stupňami voľnosti.
Kedy to použiť: Porovnanie dvoch priemerov z nezávislých skupín, keď sú údaje približne normálne alebo n > 30.
Korelácia
Pearsonovo r meria silu lineárneho vzťahu medzi dvoma premennými:
- r = +1: Dokonalý kladný lineárny vzťah
- r = 0: Žiadny lineárny vzťah
- r = −1: Dokonalý negatívny lineárny vzťah
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]
R² (r na druhú) udáva podiel rozptylu v Y vysvetlený pomocou X. Ak r = 0,7, potom R² = 0,49 — X vysvetľuje 49 % variability v Y.
Spearmanovo ρ (rho) robí to isté, ale používa skôr poradie ako nespracované hodnoty, vďaka čomu je odolný voči odľahlým hodnotám a vhodný pre ordinálne údaje.
Pamätajte: Korelácia ≠ príčinná súvislosť. Predaj zmrzliny a miera utopenia spolu silne korelujú (obe vrcholy v lete), ale zmrzlina nespôsobuje utopenie.
Veľkosť efektu
Štatistická významnosť vám povie, či je efekt skutočný; veľkosť efektu vám povie, aký je veľký. Cohenovo d na porovnanie dvoch prostriedkov:
d = (μ₁ - μ₂) / σ_pooled
| Cohenov d | Výklad |
|---|---|
| 0.2 | Malý |
| 0.5 | Stredná |
| 0.8 | Veľký |
Veľmi významná p-hodnota s d = 0,1 znamená, že ste zistili skutočný, ale triviálne malý efekt – možno preto, že vaša vzorka bola obrovská. Vždy uvádzajte veľkosti efektov spolu s hodnotami p.
Chí-kvadrát test
Test chí-kvadrát (χ²) sa pýta: "Odlišujú sa pozorované počty od toho, čo by sme náhodou očakávali?"
χ² = Σ (Observed - Expected)² / Expected
Použite ho, keď sú vaše údaje kategorické – napríklad testovanie, či je kocka spravodlivá alebo či je výsledok liečby nezávislý od liečebnej skupiny.
Výber správneho testu
| Situácia | Test |
|---|---|
| Porovnajte jeden priemer so známou hodnotou | Jednovzorkový t-test |
| Porovnajte dva nezávislé prostriedky | Dvojvýberový t-test |
| Porovnajte dva spárované prostriedky | Párový t-test |
| Porovnať 3+ znamená | ANOVA |
| Porovnať 3+ znamená (nenormálne) | Kruskal-Wallis |
| Asociácia medzi dvoma spojitými premennými | Pearsonova/Spearmanova korelácia |
| Porovnajte kategorické proporcie | Chí-kvadrát |
| Dve skupiny, nenormálne rozdelenie | Mann-Whitney U |
Bežné chyby
Pohľad: Opakované spustenie testu a zastavenie, keď p <lt; 0,05 dramaticky nafúkne chybu typu I. Pred zberom údajov si naplánujte veľkosť vzorky.
Viacnásobné porovnania: Spustenie 20 nezávislých testov pri α = 0,05 vytvorí v priemere jeden falošne pozitívny výsledok. Použite korekciu Bonferroni alebo kontrolujte mieru falošných objavov.
Ignorovanie predpokladov: Väčšina testov predpokladá náhodný výber vzoriek, nezávislosť pozorovaní a (pre t-testy) približnú normalitu. Ich porušenie podkopáva výsledky.
Použite našu Kalkulačka Z-Score, [Kalkulačka veľkosti vzorky](/sk/matematické/štatistiky/veľkosť vzorky), t-Test Calculator a [Kalkulačka korelácie/štatistika k vašim vlastným údajom.