Statistieken voor beginners: gemiddelde, SD, hypothesetests en meer

Statistiek is de taal van onzekerheid – het instrument waarmee we conclusies kunnen trekken uit onvolledige informatie. Of u nu een opiniepeiling leest, de resultaten van een klinische proef interpreteert of uw eigen gegevens analyseert: als u deze kernconcepten begrijpt, wordt u een veel kritischere lezer.

Beschrijvende statistieken: gegevens samenvatten

Voordat u gegevens kunt analyseren, moet u deze beschrijven. De belangrijkste maatstaven zijn centrale tendens (waar is het midden?) en spreiding (hoe variabel zijn de gegevens?).

Gemiddelde, mediaan en modus

Het rekenkundig gemiddelde is de som gedeeld door het aantal. Het is het meest bekende gemiddelde, maar is zeer gevoelig voor uitschieters.

De mediaan is de middelste waarde wanneer de gegevens worden gesorteerd. Het is robuuster: een enkele extreme waarde verandert er niet veel aan.

De modus is de meest voorkomende waarde. Handig voor categorische gegevens; minder bruikbaar voor continue metingen.

Gegevensset	Gemeen	Mediaan	Modus
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

Merk op hoe één extreme waarde (100) het gemiddelde dramatisch verandert, maar de mediaan onaangetast laat. Dit is de reden waarom de huizenprijsstatistieken de mediaan gebruiken: een handvol herenhuizen van meerdere miljoenen ponden zou de gemiddelde prijzen misleidend maken.

Standaardafwijking en variantie

Variantie meet de gemiddelde kwadratische afwijking van het gemiddelde:

σ² = Σ(xi - x̄)² / n

De standaarddeviatie is de vierkantswortel van de variantie. Deze bevindt zich in dezelfde eenheden als de originele gegevens, waardoor deze interpreteerbaar is:

σ = √[Σ(xi - x̄)² / n]

De 68-95-99.7-regel voor normaal verdeelde gegevens:

68% van de waarden valt binnen 1 standaarddeviatie van het gemiddelde
95% binnen 2 standaardafwijkingen
99,7% binnen 3 standaardafwijkingen

Opmerking: Gebruik n in de noemer voor de standaarddeviatie van de populatie; gebruik n−1 voor een steekproefschatting (dit wordt de Bessel-correctie genoemd en corrigeert voor de lichte onderschatting die optreedt bij steekproeven).

De normale verdeling

De normale (Gaussiaanse) verdeling is de klokvormige curve die overal in de natuur en de statistieken voorkomt. Het wordt volledig beschreven door twee parameters: gemiddelde (μ) en standaardafwijking (σ).

De z-score converteert elke waarde naar "hoeveel standaardafwijkingen van het gemiddelde":

z = (x - μ) / σ

Een z-score van 1,96 komt overeen met het 97,5e percentiel – de waarde waarboven slechts 2,5% van de verdeling ligt. Dit verschijnt voortdurend in de statistieken vanwege betrouwbaarheidsintervallen.

De Centrale Limietstelling is de reden waarom de normale verdeling zo belangrijk is: ongeacht de vorm van de oorspronkelijke populatie, benadert de verdeling van de steekproefgemiddelden de normaliteit naarmate de steekproefomvang groter wordt. Dit is de reden waarom zoveel statistische tests uitgaan van normaliteit, zelfs als de ruwe gegevens niet normaal verdeeld zijn.

Betrouwbaarheidsintervallen

Een betrouwbaarheidsinterval van 95% betekent niet dat er een waarschijnlijkheid van 95% is dat de werkelijke waarde binnen dit bereik ligt. Het betekent: "Als we dit bemonsteringsproces vele malen zouden herhalen, zou 95% van de berekende intervallen de werkelijke waarde bevatten."

Voor een aandeel p uit een steekproef met omvang n:

CI = p ± z × √(p(1-p)/n)

Voor een betrouwbaarheid van 95% geldt z = 1,96. Voor 99% geldt z = 2,576.

Foutmarge is slechts het ± deel: z × √(p(1-p)/n). Wanneer een opiniepeiling "±3 procentpunten" rapporteert, is dit de foutmarge.

Hypothese testen

Elke hypothesetest volgt dezelfde structuur:

H₀ (nulhypothese): De standaardwaarde: meestal 'geen effect', 'geen verschil', 'geen relatie'
H₁ (alternatieve hypothese): Waarvoor je bewijs probeert te tonen
Teststatistiek: Een getal dat wordt berekend op basis van de gegevens en dat meet hoe ver de gegevens van H₀ verwijderd zijn
p-waarde: De waarschijnlijkheid dat een resultaat minstens zo extreem wordt waargenomen als H₀ waar zou zijn

De p-waarde uitgelegd

Een p-waarde van 0,03 betekent: "Als er werkelijk geen effect zou zijn, zouden we slechts in 3% van de gevallen zulke extreme gegevens zien." Dit wordt gewoonlijk als significant genoeg beschouwd om H₀ te verwerpen.

Wat p < 0,05 betekent NIET:

Dit betekent niet dat er 95% kans is dat het effect reëel is
Het betekent niet dat het effect praktisch belangrijk is
Dit betekent niet dat H₀ onwaar is

Type I- en Type II-fouten:

	H₀ is waar	H₀ is onwaar
Weiger H₀	Type I-fout (vals-positief)	Juist
Kan H₀ niet afwijzen	Juist	Type II-fout (vals-negatief)

α (significantieniveau) = Type I-foutpercentage, gewoonlijk 0,05 β = Type II-foutenpercentage; Vermogen = 1 − β, meestal gericht op 0,80

De t-test

De t-test vergelijkt gemiddelden tussen groepen. De t-statistiek voor twee steekproeven is:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Een grote |t| betekent dat de groepen ver uit elkaar liggen in verhouding tot de variabiliteit binnen de groep. Vergelijk met een kritische waarde (of bereken de p-waarde) met de juiste vrijheidsgraden.

Wanneer gebruiken: Vergelijking van twee gemiddelden uit onafhankelijke groepen, wanneer de gegevens ongeveer normaal zijn of n > 30.

Correlatie

Pearson's r meet de sterkte van het lineaire verband tussen twee variabelen:

r = +1: Perfect positief lineair verband
r = 0: Geen lineair verband
r = −1: perfecte negatieve lineaire relatie

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r kwadraat) vertelt je het aandeel van de variantie in Y verklaard door X. Als r = 0,7, dan R² = 0,49 — X verklaart 49% van de variabiliteit in Y.

Spearman's ρ (rho) doet hetzelfde, maar gebruikt rangen in plaats van ruwe waarden, waardoor het robuust is voor uitschieters en geschikt is voor ordinale gegevens.

Onthoud: Correlatie ≠ oorzakelijk verband. De verkoop van ijs en het aantal verdrinkingen zijn sterk gecorreleerd (beide pieken in de zomer), maar ijs veroorzaakt geen verdrinking.

Effectgrootte

Statistische significantie vertelt u of een effect reëel is; effectgrootte geeft aan hoe groot het is. Cohen's d voor het vergelijken van twee gemiddelden:

d = (μ₁ - μ₂) / σ_pooled

Cohen d	Interpretatie
0.2	Klein
0.5	Medium
0.8	Groot

Een zeer significante p-waarde met d = 0,1 betekent dat u een reëel maar triviaal klein effect hebt gedetecteerd, mogelijk omdat uw steekproef enorm was. Rapporteer effectgroottes altijd naast p-waarden.

Chi-kwadraattest

De chikwadraattoets (χ²) vraagt: "Verschillen de waargenomen aantallen van wat we bij toeval zouden verwachten?"

χ² = Σ (Observed - Expected)² / Expected

Gebruik het wanneer uw gegevens categorisch zijn, bijvoorbeeld als u wilt testen of een dobbelsteen eerlijk is, of dat de behandelresultaten onafhankelijk zijn van de behandelgroep.

De juiste test kiezen

Situatie	Test
Vergelijk één gemiddelde met een bekende waarde	T-test met één monster
Vergelijk twee onafhankelijke middelen	T-test met twee steekproeven
Vergelijk twee gepaarde gemiddelden	Gepaarde t-test
Vergelijk 3+ middelen	ANOVA
Vergelijk 3+ gemiddelden (niet-normaal)	Kruskal-Wallis
Associatie tussen twee continue variabelen	Pearson/Spearman-correlatie
Vergelijk categorische verhoudingen	Chi-kwadraat
Twee groepen, niet-normale verdeling	Mann-Whitney U

Veelvoorkomende fouten

** Gluren:** Voer uw test herhaaldelijk uit en stop wanneer p < 0,05 vergroot de Type I-fout dramatisch. Plan uw steekproefomvang voordat u gegevens verzamelt.

Meerdere vergelijkingen: Het uitvoeren van 20 onafhankelijke tests bij α = 0,05 levert gemiddeld één vals-positief resultaat op. Gebruik Bonferroni-correctie of controleer het aantal valse ontdekkingen.

Aannames negeren: De meeste tests gaan uit van willekeurige steekproeven, onafhankelijkheid van observaties en (voor t-tests) benaderende normaliteit. Het overtreden hiervan ondermijnt de resultaten.

Gebruik onze Z-Score Calculator, Sample Size Calculator, t-Test Calculator en Correlation Calculator om door uw eigen gegevens te werken.