Statistik er usikkerhedens sprog - værktøjet, der lader os drage konklusioner ud fra ufuldstændig information. Uanset om du læser en nyhedsundersøgelse, fortolker et klinisk forsøgsresultat eller analyserer dine egne data, vil forståelsen af disse kernekoncepter gøre dig til en langt mere kritisk læser.
Beskrivende statistik: Opsummering af data
Før du kan analysere data, skal du beskrive dem. De vigtigste mål er central tendens (hvor er midten?) og spredning (hvor variabel er dataene?).
Middel, median og tilstand
Den aritmetiske middelværdi er summen divideret med antallet. Det er det mest kendte gennemsnit, men det er meget følsomt over for afvigelser.
medianen er den midterste værdi, når data sorteres. Den er mere robust - en enkelt ekstrem værdi flytter den ikke meget.
tilstanden er den hyppigste værdi. Nyttig til kategoriske data; mindre nyttig til kontinuerlige målinger.
| Datasæt | Betyde | Median | Mode |
|---|---|---|---|
| 2, 4, 4, 6, 8 | 4.8 | 4 | 4 |
| 2, 4, 4, 6, 100 | 23.2 | 4 | 4 |
Læg mærke til, hvordan en ekstrem værdi (100) ændrer gennemsnittet dramatisk, men lader medianen være urørt. Det er derfor, husprisstatistikker bruger medianen - en håndfuld palæer på flere millioner pund ville gøre gennemsnitspriserne vildledende.
Standardafvigelse og varians
Varians måler den gennemsnitlige kvadrerede afvigelse fra middelværdien:
σ² = Σ(xi - x̄)² / n
Standardafvigelse er kvadratroden af varians - den er i de samme enheder som de originale data, hvilket gør den fortolkelig:
σ = √[Σ(xi - x̄)² / n]
68-95-99.7-reglen for normalfordelte data:
- 68 % af værdierne falder inden for 1 standardafvigelse af middelværdien
- 95% inden for 2 standardafvigelser
- 99,7% inden for 3 standardafvigelser
Bemærk: Brug n i nævneren for populationens standardafvigelse; brug n−1 til et stikprøveestimat (dette kaldes Bessels korrektion og korrigerer for den lille undervurdering, der forekommer med prøver).
Normalfordelingen
Normalfordelingen (gaussisk) er den klokkeformede kurve, der optræder overalt i naturen og statistikken. Det er fuldt ud beskrevet af to parametre: middelværdi (μ) og standardafvigelse (σ).
z-score konverterer enhver værdi til "hvor mange standardafvigelser fra middelværdien":
z = (x - μ) / σ
En z-score på 1,96 svarer til 97,5-percentilen - værdien over hvilken kun 2,5% af fordelingen ligger. Dette vises konstant i statistikker på grund af konfidensintervaller.
Centralgrænsesætningen er grunden til, at normalfordelingen betyder så meget: uanset formen af den oprindelige population, nærmer fordelingen af stikprøvemiddel sig normalitet, efterhånden som stikprøvestørrelsen øges. Dette er grunden til, at så mange statistiske test antager normalitet, selv når de rå data ikke er normalfordelt.
Konfidensintervaller
Et 95 % konfidensinterval betyder ikke "der er 95 % sandsynlighed for, at den sande værdi er i dette interval." Det betyder: "hvis vi gentog denne prøvetagningsproces mange gange, ville 95 % af de intervaller, vi beregnede, indeholde den sande værdi."
For en andel p fra en prøve af størrelse n:
CI = p ± z × √(p(1-p)/n)
For 95 % konfidens er z = 1,96. For 99 % er z = 2,576.
Fejlmargin er kun ±-delen: z × √(p(1-p)/n). Når en meningsmåling rapporterer "±3 procentpoint", er dette fejlmarginen.
Hypotesetestning
Hver hypotesetest følger den samme struktur:
- H₀ (nulhypotese): Standard — normalt "ingen effekt", "ingen forskel", "ingen sammenhæng"
- H₁ (alternativ hypotese): Hvad du forsøger at bevise
- Teststatistik: Et tal beregnet ud fra dataene, der måler, hvor langt fra H₀ dataene er
- p-værdi: Sandsynligheden for at observere et resultat mindst denne ekstreme, hvis H₀ var sand
P-værdien forklaret
En p-værdi på 0,03 betyder: "Hvis der virkelig ikke var nogen effekt, ville vi tilfældigt kun se data i denne ekstreme grad 3% af tiden." Dette anses normalt for signifikant nok til at afvise H₀.
Hvad p < 0,05 betyder IKKE:
- Det betyder ikke, at der er 95 % chance for, at effekten er reel
- Det betyder ikke, at effekten er praktisk vigtig
- Det betyder ikke, at H₀ er falsk
Type I og Type II fejl:
| H₀ er sandt | H₀ er falsk | |
|---|---|---|
| Afvis H₀ | Type I fejl (falsk positiv) | Korrekt |
| Kan ikke afvise H₀ | Korrekt | Type II fejl (falsk negativ) |
α (signifikansniveau) = Type I fejlrate, normalt 0,05 β = Type II fejlrate; Effekt = 1 − β, normalt målrettet til 0,80
t-testen
T-testen sammenligner gennemsnit mellem grupper. T-statistikken med to stikprøver er:
t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)
En stor |t| betyder, at grupperne er langt fra hinanden i forhold til variabilitet inden for gruppen. Sammenlign med en kritisk værdi (eller beregn p-værdien) med passende frihedsgrader.
Hvornår skal det bruges: Sammenligning af to midler fra uafhængige grupper, når data er omtrent normale eller n > 30.
Korrelation
Pearsons r måler styrken af lineær sammenhæng mellem to variable:
- r = +1: Perfekt positiv lineær sammenhæng
- r = 0: Ingen lineær sammenhæng
- r = −1: Perfekt negativ lineær sammenhæng
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]
R² (r i anden kvadrat) fortæller dig variansandelen i Y forklaret med X. Hvis r = 0,7, så forklarer R² = 0,49 — X forklarer 49 % af variabiliteten i Y.
Spearman's ρ (rho) gør det samme, men bruger rangeringer i stedet for råværdier, hvilket gør det robust over for afvigere og passende til ordinære data.
Husk: Korrelation ≠ årsagssammenhæng. Issalg og drukningsrater er stærkt korrelerede (begge topper om sommeren), men is forårsager ikke drukning.
Effektstørrelse
Statistisk signifikans fortæller dig, om en effekt er reel; effektstørrelse fortæller dig, hvor stor den er. Cohens d for at sammenligne to måder:
d = (μ₁ - μ₂) / σ_pooled
| Cohens d | Fortolkning |
|---|---|
| 0.2 | Lille |
| 0.5 | Medium |
| 0.8 | Stor |
En meget signifikant p-værdi med d = 0,1 betyder, at du har opdaget en reel, men trivielt lille effekt - muligvis fordi din prøve var enorm. Rapportér altid effektstørrelser sammen med p-værdier.
Chi-Square Test
Chi-kvadrat-testen (χ²) spørger: "Afviger de observerede tællinger fra, hvad vi tilfældigt ville forvente?"
χ² = Σ (Observed - Expected)² / Expected
Brug det, når dine data er kategoriske - for eksempel ved at teste, om en die er retfærdig, eller om behandlingsresultatet er uafhængigt af behandlingsgruppen.
Valg af den rigtige test
| Situation | Prøve |
|---|---|
| Sammenlign et gennemsnit med en kendt værdi | En-prøve t-test |
| Sammenlign to uafhængige midler | To-prøve t-test |
| Sammenlign to parrede midler | Parret t-test |
| Sammenlign 3+ midler | ANOVA |
| Sammenlign 3+ midler (ikke-normal) | Kruskal-Wallis |
| Sammenhæng mellem to kontinuerte variable | Pearson/Spearman korrelation |
| Sammenlign kategoriske proportioner | Chi-kvadrat |
| To grupper, ikke-normalfordeling | Mann-Whitney U |
Almindelige fejl
Kigger: Kører din test gentagne gange og stopper, når p < 0,05 puster Type I fejl dramatisk op. Planlæg din stikprøvestørrelse, før du indsamler data.
Flere sammenligninger: Kørsel af 20 uafhængige test ved α = 0,05 vil i gennemsnit give én falsk positiv. Brug Bonferroni-korrektion eller kontroller antallet af falske opdagelser.
Ignorerer antagelser: De fleste test forudsætter tilfældig stikprøve, uafhængighed af observationer og (for t-test) omtrentlig normalitet. Overtrædelse af disse underminerer resultaterne.
Brug vores Z-Score Lommeregner, Sample Size Calculator, t-Test Lommeregner og Korrelationsberegner til at arbejde gennem din egen persondata.