Statistik for begyndere: Gennemsnit, SD, hypotesetest og mere

Statistik er usikkerhedens sprog - værktøjet, der lader os drage konklusioner ud fra ufuldstændig information. Uanset om du læser en nyhedsundersøgelse, fortolker et klinisk forsøgsresultat eller analyserer dine egne data, vil forståelsen af disse kernekoncepter gøre dig til en langt mere kritisk læser.

Beskrivende statistik: Opsummering af data

Før du kan analysere data, skal du beskrive dem. De vigtigste mål er central tendens (hvor er midten?) og spredning (hvor variabel er dataene?).

Middel, median og tilstand

Den aritmetiske middelværdi er summen divideret med antallet. Det er det mest kendte gennemsnit, men det er meget følsomt over for afvigelser.

medianen er den midterste værdi, når data sorteres. Den er mere robust - en enkelt ekstrem værdi flytter den ikke meget.

tilstanden er den hyppigste værdi. Nyttig til kategoriske data; mindre nyttig til kontinuerlige målinger.

Datasæt	Betyde	Median	Mode
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

Læg mærke til, hvordan en ekstrem værdi (100) ændrer gennemsnittet dramatisk, men lader medianen være urørt. Det er derfor, husprisstatistikker bruger medianen - en håndfuld palæer på flere millioner pund ville gøre gennemsnitspriserne vildledende.

Standardafvigelse og varians

Varians måler den gennemsnitlige kvadrerede afvigelse fra middelværdien:

σ² = Σ(xi - x̄)² / n

Standardafvigelse er kvadratroden af varians - den er i de samme enheder som de originale data, hvilket gør den fortolkelig:

σ = √[Σ(xi - x̄)² / n]

68-95-99.7-reglen for normalfordelte data:

68 % af værdierne falder inden for 1 standardafvigelse af middelværdien
95% inden for 2 standardafvigelser
99,7% inden for 3 standardafvigelser

Bemærk: Brug n i nævneren for populationens standardafvigelse; brug n−1 til et stikprøveestimat (dette kaldes Bessels korrektion og korrigerer for den lille undervurdering, der forekommer med prøver).

Normalfordelingen

Normalfordelingen (gaussisk) er den klokkeformede kurve, der optræder overalt i naturen og statistikken. Det er fuldt ud beskrevet af to parametre: middelværdi (μ) og standardafvigelse (σ).

z-score konverterer enhver værdi til "hvor mange standardafvigelser fra middelværdien":

z = (x - μ) / σ

En z-score på 1,96 svarer til 97,5-percentilen - værdien over hvilken kun 2,5% af fordelingen ligger. Dette vises konstant i statistikker på grund af konfidensintervaller.

Centralgrænsesætningen er grunden til, at normalfordelingen betyder så meget: uanset formen af den oprindelige population, nærmer fordelingen af stikprøvemiddel sig normalitet, efterhånden som stikprøvestørrelsen øges. Dette er grunden til, at så mange statistiske test antager normalitet, selv når de rå data ikke er normalfordelt.

Konfidensintervaller

Et 95 % konfidensinterval betyder ikke "der er 95 % sandsynlighed for, at den sande værdi er i dette interval." Det betyder: "hvis vi gentog denne prøvetagningsproces mange gange, ville 95 % af de intervaller, vi beregnede, indeholde den sande værdi."

For en andel p fra en prøve af størrelse n:

CI = p ± z × √(p(1-p)/n)

For 95 % konfidens er z = 1,96. For 99 % er z = 2,576.

Fejlmargin er kun ±-delen: z × √(p(1-p)/n). Når en meningsmåling rapporterer "±3 procentpoint", er dette fejlmarginen.

Hypotesetestning

Hver hypotesetest følger den samme struktur:

H₀ (nulhypotese): Standard — normalt "ingen effekt", "ingen forskel", "ingen sammenhæng"
H₁ (alternativ hypotese): Hvad du forsøger at bevise
Teststatistik: Et tal beregnet ud fra dataene, der måler, hvor langt fra H₀ dataene er
p-værdi: Sandsynligheden for at observere et resultat mindst denne ekstreme, hvis H₀ var sand

P-værdien forklaret

En p-værdi på 0,03 betyder: "Hvis der virkelig ikke var nogen effekt, ville vi tilfældigt kun se data i denne ekstreme grad 3% af tiden." Dette anses normalt for signifikant nok til at afvise H₀.

Hvad p < 0,05 betyder IKKE:

Det betyder ikke, at der er 95 % chance for, at effekten er reel
Det betyder ikke, at effekten er praktisk vigtig
Det betyder ikke, at H₀ er falsk

Type I og Type II fejl:

	H₀ er sandt	H₀ er falsk
Afvis H₀	Type I fejl (falsk positiv)	Korrekt
Kan ikke afvise H₀	Korrekt	Type II fejl (falsk negativ)

α (signifikansniveau) = Type I fejlrate, normalt 0,05 β = Type II fejlrate; Effekt = 1 − β, normalt målrettet til 0,80

t-testen

T-testen sammenligner gennemsnit mellem grupper. T-statistikken med to stikprøver er:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

En stor |t| betyder, at grupperne er langt fra hinanden i forhold til variabilitet inden for gruppen. Sammenlign med en kritisk værdi (eller beregn p-værdien) med passende frihedsgrader.

Hvornår skal det bruges: Sammenligning af to midler fra uafhængige grupper, når data er omtrent normale eller n > 30.

Korrelation

Pearsons r måler styrken af lineær sammenhæng mellem to variable:

r = +1: Perfekt positiv lineær sammenhæng
r = 0: Ingen lineær sammenhæng
r = −1: Perfekt negativ lineær sammenhæng

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r i anden kvadrat) fortæller dig variansandelen i Y forklaret med X. Hvis r = 0,7, så forklarer R² = 0,49 — X forklarer 49 % af variabiliteten i Y.

Spearman's ρ (rho) gør det samme, men bruger rangeringer i stedet for råværdier, hvilket gør det robust over for afvigere og passende til ordinære data.

Husk: Korrelation ≠ årsagssammenhæng. Issalg og drukningsrater er stærkt korrelerede (begge topper om sommeren), men is forårsager ikke drukning.

Effektstørrelse

Statistisk signifikans fortæller dig, om en effekt er reel; effektstørrelse fortæller dig, hvor stor den er. Cohens d for at sammenligne to måder:

d = (μ₁ - μ₂) / σ_pooled

Cohens d	Fortolkning
0.2	Lille
0.5	Medium
0.8	Stor

En meget signifikant p-værdi med d = 0,1 betyder, at du har opdaget en reel, men trivielt lille effekt - muligvis fordi din prøve var enorm. Rapportér altid effektstørrelser sammen med p-værdier.

Chi-Square Test

Chi-kvadrat-testen (χ²) spørger: "Afviger de observerede tællinger fra, hvad vi tilfældigt ville forvente?"

χ² = Σ (Observed - Expected)² / Expected

Brug det, når dine data er kategoriske - for eksempel ved at teste, om en die er retfærdig, eller om behandlingsresultatet er uafhængigt af behandlingsgruppen.

Valg af den rigtige test

Situation	Prøve
Sammenlign et gennemsnit med en kendt værdi	En-prøve t-test
Sammenlign to uafhængige midler	To-prøve t-test
Sammenlign to parrede midler	Parret t-test
Sammenlign 3+ midler	ANOVA
Sammenlign 3+ midler (ikke-normal)	Kruskal-Wallis
Sammenhæng mellem to kontinuerte variable	Pearson/Spearman korrelation
Sammenlign kategoriske proportioner	Chi-kvadrat
To grupper, ikke-normalfordeling	Mann-Whitney U

Almindelige fejl

Kigger: Kører din test gentagne gange og stopper, når p < 0,05 puster Type I fejl dramatisk op. Planlæg din stikprøvestørrelse, før du indsamler data.

Flere sammenligninger: Kørsel af 20 uafhængige test ved α = 0,05 vil i gennemsnit give én falsk positiv. Brug Bonferroni-korrektion eller kontroller antallet af falske opdagelser.

Ignorerer antagelser: De fleste test forudsætter tilfældig stikprøve, uafhængighed af observationer og (for t-test) omtrentlig normalitet. Overtrædelse af disse underminerer resultaterne.

Brug vores Z-Score Lommeregner, Sample Size Calculator, t-Test Lommeregner og Korrelationsberegner til at arbejde gennem din egen persondata.