Statistiken für Anfänger: Mittelwert, Standardabweichung, Hypothesentests und mehr

Statistik ist die Sprache der Unsicherheit – das Werkzeug, mit dem wir aus unvollständigen Informationen Schlussfolgerungen ziehen können. Ganz gleich, ob Sie eine Nachrichtenumfrage lesen, ein Ergebnis einer klinischen Studie interpretieren oder Ihre eigenen Daten analysieren – das Verständnis dieser Kernkonzepte wird Sie zu einem weitaus kritischeren Leser machen.

Deskriptive Statistik: Daten zusammenfassen

Bevor Sie Daten analysieren können, müssen Sie sie beschreiben. Die wichtigsten Messgrößen sind zentrale Tendenz (wo ist die Mitte?) und Spread (wie variabel sind die Daten?).

Mittelwert, Median und Modus

Das arithmetische Mittel ist die Summe dividiert durch die Anzahl. Es handelt sich um den bekanntesten Durchschnitt, der jedoch sehr empfindlich auf Ausreißer reagiert.

Der Median ist der Mittelwert beim Sortieren der Daten. Es ist robuster – ein einzelner Extremwert verändert es nicht wesentlich.

Der Modus ist der häufigste Wert. Nützlich für kategoriale Daten; für kontinuierliche Messungen weniger nützlich.

Datensatz	Bedeuten	Mittlere	Modus
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

Beachten Sie, wie ein Extremwert (100) den Mittelwert dramatisch verändert, den Median jedoch unberührt lässt. Aus diesem Grund verwenden Immobilienpreisstatistiken den Median – eine Handvoll Villen im Wert von mehreren Millionen Pfund würden die Durchschnittspreise irreführend machen.

Standardabweichung und Varianz

Die Varianz misst die durchschnittliche quadratische Abweichung vom Mittelwert:

σ² = Σ(xi - x̄)² / n

Die Standardabweichung ist die Quadratwurzel der Varianz – sie hat die gleichen Einheiten wie die Originaldaten und ist daher interpretierbar:

σ = √[Σ(xi - x̄)² / n]

Die 68-95-99,7-Regel für normalverteilte Daten:

68 % der Werte liegen innerhalb einer Standardabweichung vom Mittelwert
95 % innerhalb von 2 Standardabweichungen
99,7 % innerhalb von 3 Standardabweichungen

Hinweis: Verwenden Sie n im Nenner für die Standardabweichung der Grundgesamtheit. Verwenden Sie n−1 für eine Stichprobenschätzung (dies wird als Bessel-Korrektur bezeichnet und korrigiert die leichte Unterschätzung, die bei Stichproben auftritt).

Die Normalverteilung

Die Normalverteilung (Gaußverteilung) ist die glockenförmige Kurve, die überall in der Natur und in der Statistik vorkommt. Es wird vollständig durch zwei Parameter beschrieben: Mittelwert (μ) und Standardabweichung (σ).

Der Z-Score wandelt jeden Wert in „wie viele Standardabweichungen vom Mittelwert“ um:

z = (x - μ) / σ

Ein Z-Score von 1,96 entspricht dem 97,5. Perzentil – dem Wert, über dem nur 2,5 % der Verteilung liegen. Dies erscheint aufgrund der Konfidenzintervalle ständig in der Statistik.

Der Zentrale Grenzwertsatz ist der Grund, warum die Normalverteilung so wichtig ist: Unabhängig von der Form der ursprünglichen Grundgesamtheit nähert sich die Verteilung der Stichprobenmittelwerte mit zunehmender Stichprobengröße der Normalverteilung an. Aus diesem Grund gehen so viele statistische Tests von Normalität aus, auch wenn die Rohdaten nicht normalverteilt sind.

Konfidenzintervalle

Ein Konfidenzintervall von 95 % bedeutet nicht, dass der wahre Wert mit einer Wahrscheinlichkeit von 95 % in diesem Bereich liegt. Das bedeutet: „Wenn wir diesen Stichprobenvorgang viele Male wiederholen würden, würden 95 % der von uns berechneten Intervalle den wahren Wert enthalten.“

Für einen Anteil p aus einer Stichprobe der Größe n:

CI = p ± z × √(p(1-p)/n)

Für 95 % Konfidenz ist z = 1,96. Für 99 % ist z = 2,576.

Fehlermarge ist nur der ±-Teil: z × √(p(1-p)/n). Wenn eine Umfrage „±3 Prozentpunkte“ ergibt, ist dies die Fehlerquote.

Hypothesentest

Jeder Hypothesentest folgt der gleichen Struktur:

H₀ (Nullhypothese): Der Standardwert – normalerweise „kein Effekt“, „kein Unterschied“, „keine Beziehung“
H₁ (Alternativhypothese): Wofür Sie Beweise vorlegen möchten
Teststatistik: Eine aus den Daten berechnete Zahl, die misst, wie weit die Daten von H₀ entfernt sind
p-Wert: Die Wahrscheinlichkeit, ein Ergebnis zu beobachten, das mindestens diesem Extrem entspricht, wenn H₀ wahr wäre

Der p-Wert erklärt

Ein p-Wert von 0,03 bedeutet: „Wenn es wirklich keinen Effekt gäbe, würden wir zufällig nur in 3 % der Fälle so extreme Daten sehen.“ Dies wird normalerweise als signifikant genug angesehen, um H₀ abzulehnen.

Welche p < 0,05 bedeutet NICHT:

Das bedeutet nicht, dass die Wahrscheinlichkeit, dass der Effekt real ist, bei 95 % liegt
Dies bedeutet nicht, dass der Effekt praktisch wichtig ist
Das bedeutet nicht, dass H₀ falsch ist

Fehler vom Typ I und Typ II:

	H₀ ist wahr	H₀ ist falsch
H₀ ablehnen	Fehler vom Typ I (falsch positiv)	Richtig
H₀ konnte nicht abgelehnt werden	Richtig	Fehler vom Typ II (falsch negativ)

α (Signifikanzniveau) = Typ-I-Fehlerrate, normalerweise 0,05 β = Fehlerquote vom Typ II; Leistung = 1 − β, normalerweise auf 0,80 angestrebt

Der t-Test

Der T-Test vergleicht Mittelwerte zwischen Gruppen. Die T-Statistik für zwei Stichproben lautet:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Ein großes |t| bedeutet, dass die Gruppen im Verhältnis zur Variabilität innerhalb der Gruppe weit voneinander entfernt sind. Vergleichen Sie mit einem kritischen Wert (oder berechnen Sie den p-Wert) mit den entsprechenden Freiheitsgraden.

Verwendungszweck: Vergleich zweier Mittelwerte aus unabhängigen Gruppen, wenn die Daten ungefähr normal sind oder n > 30.

Korrelation

Pearsons r misst die Stärke der linearen Beziehung zwischen zwei Variablen:

r = +1: Perfekte positive lineare Beziehung
r = 0: Kein linearer Zusammenhang
r = −1: Perfekte negative lineare Beziehung

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r im Quadrat) gibt den Anteil der Varianz in Y an, der durch X erklärt wird. Wenn r = 0,7, dann ist R² = 0,49 – X erklärt 49 % der Variabilität in Y.

Spearmans ρ (rho) macht das Gleiche, verwendet jedoch Ränge anstelle von Rohwerten, wodurch es robust gegenüber Ausreißern und für Ordinaldaten geeignet ist.

Denken Sie daran: Korrelation ≠ Kausalität. Eisverkäufe und Ertrinkungsraten korrelieren stark miteinander (beide erreichen ihren Höhepunkt im Sommer), aber Eis verursacht keine Ertrinkungsgefahr.

Effektgröße

Die statistische Signifikanz sagt Ihnen, ob ein Effekt real ist; Effektgröße sagt Ihnen, wie groß es ist. Cohens d für den Vergleich zweier Mittelwerte:

d = (μ₁ - μ₂) / σ_pooled

Cohens d	Interpretation
0.2	Klein
0.5	Medium
0.8	Groß

Ein hochsignifikanter p-Wert mit d = 0,1 bedeutet, dass Sie einen echten, aber trivial kleinen Effekt festgestellt haben – möglicherweise weil Ihre Stichprobe riesig war. Geben Sie immer die Effektstärken zusammen mit den p-Werten an.

Chi-Quadrat-Test

Der Chi-Quadrat-Test (χ²) fragt: „Unterscheiden sich die beobachteten Zahlen von dem, was wir zufällig erwarten würden?“

χ² = Σ (Observed - Expected)² / Expected

Verwenden Sie es, wenn Ihre Daten kategorisch sind – zum Beispiel, um zu testen, ob ein Würfel fair ist oder ob das Behandlungsergebnis unabhängig von der Behandlungsgruppe ist.

Den richtigen Test auswählen

Situation	Prüfen
Vergleichen Sie einen Mittelwert mit einem bekannten Wert	T-Test bei einer Stichprobe
Vergleichen Sie zwei unabhängige Mittelwerte	T-Test bei zwei Stichproben
Vergleichen Sie zwei gepaarte Mittelwerte	Gepaarter T-Test
Vergleichen Sie 3+ Mittel	ANOVA
Vergleichen Sie 3+ Mittelwerte (nicht normal)	Kruskal-Wallis
Assoziation zwischen zwei kontinuierlichen Variablen	Pearson/Spearman-Korrelation
Vergleichen Sie kategorische Proportionen	Chi-Quadrat
Zwei Gruppen, nicht normal verteilt	Mann-Whitney U

Häufige Fehler

Spähen: Führen Sie Ihren Test wiederholt aus und stoppen Sie ihn, wenn p < 0,05 erhöht den Typ-I-Fehler dramatisch. Planen Sie Ihre Stichprobengröße, bevor Sie Daten sammeln.

Mehrfachvergleiche: Die Durchführung von 20 unabhängigen Tests bei α = 0,05 führt im Durchschnitt zu einem falsch positiven Ergebnis. Verwenden Sie die Bonferroni-Korrektur oder kontrollieren Sie die Falscherkennungsrate.

Annahmen ignorieren: Die meisten Tests setzen Zufallsstichproben, Unabhängigkeit von Beobachtungen und (für t-Tests) ungefähre Normalität voraus. Ein Verstoß dagegen beeinträchtigt die Ergebnisse.

Verwenden Sie unseren Z-Score-Rechner, Stichprobengrößenrechner, t-Test-Rechner und Korrelationsrechner, um Ihre eigenen Daten zu verarbeiten.