Die Varianz misst, wie weit eine Reihe von Zahlen von ihrem Mittelwert abweicht. Es ist eines der wichtigsten Konzepte in der Statistik – es wird im Finanzwesen zur Messung des Investitionsrisikos, in der Wissenschaft zur Beurteilung der experimentellen Konsistenz und in der alltäglichen Datenanalyse verwendet.

Was ist Varianz?

Die Varianz ist der Durchschnitt der quadrierten Differenzen vom Mittelwert. Eine geringe Varianz bedeutet, dass sich die Datenpunkte eng um den Durchschnitt gruppieren. Eine hohe Varianz bedeutet, dass sie weit verbreitet sind.

Es gibt zwei Arten:

  • Bevölkerungsvarianz (σ²) – wird verwendet, wenn Sie Daten für die gesamte Bevölkerung haben
  • Stichprobenvarianz (s²) – wird verwendet, wenn es sich bei Ihren Daten um eine Stichprobe aus einer größeren Grundgesamtheit handelt

In der Praxis werden Sie fast immer die Stichprobenvarianz verwenden.

Die Varianzformel

Populationsvarianz

σ² = Σ(xᵢ - μ)² / N

Wo:

  • xᵢ = jeder Datenpunkt
  • μ = der Bevölkerungsmittelwert
  • N = Anzahl der Datenpunkte

Stichprobenvarianz

s² = Σ(xᵢ - x̄)² / (n - 1)

Wo:

  • x̄ = der Stichprobenmittelwert
  • n - 1 = Freiheitsgrade (Bessel-Korrektur)

Der CODE0 in der Stichprobenvarianz korrigiert die Tatsache, dass eine Stichprobe dazu neigt, die wahre Streuung der Grundgesamtheit zu unterschätzen.

Schritt-für-Schritt-Beispiel

Datensatz: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

Schritt 1: Berechnen Sie den Mittelwert

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

Schritt 2: Subtrahieren Sie den Mittelwert von jedem Wert und quadrieren Sie das Ergebnis

Wert Wert – Mittelwert (Wert − Mittelwert)²
4 4 − 5,2 = −1,2 1.44
8 8 − 5,2 = 2,8 7.84
6 6 − 5,2 = 0,8 0.64
5 5 − 5,2 = −0,2 0.04
3 3 − 5,2 = −2,2 4.84
2 2 − 5,2 = −3,2 10.24
8 8 − 5,2 = 2,8 7.84
9 9 − 5,2 = 3,8 14.44
2 2 − 5,2 = −3,2 10.24
5 5 − 5,2 = −0,2 0.04

Schritt 3: Summieren Sie die quadrierten Differenzen

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

Schritt 4: Division durch n − 1 (Stichprobenvarianz)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

Die Stichprobenvarianz beträgt 6,4.

Varianz vs. Standardabweichung

Die Standardabweichung ist einfach die Quadratwurzel der Varianz:

s = √s² = √6.4 ≈ 2.53

Die Standardabweichung wird in denselben Einheiten wie die Originaldaten ausgedrückt, was die Interpretation erleichtert. Wenn Ihre Daten in Kilogramm vorliegen, wird die Standardabweichung in Kilogramm angegeben. Die Abweichung ist in Kilogramm² angegeben. Aus diesem Grund wird die Standardabweichung häufiger angegeben – in vielen statistischen Berechnungen wird jedoch die Varianz verwendet.

Bevölkerung vs. Stichprobe: Wann jeweils zu verwenden ist

Situation Verwenden
Sie haben Daten für jedes Mitglied der Gruppe Populationsvarianz (÷ N)
Ihre Daten sind eine Stichprobe aus einer größeren Gruppe Stichprobenvarianz (÷ n − 1)
Im Vergleich zu anderen statistischen Tests Normalerweise Stichprobenvarianz
Ihr Datensatz ist das vollständige Bild Populationsvarianz

Im Zweifelsfall verwenden Sie die Stichprobenvarianz. Bei den meisten realen Datensätzen handelt es sich um Stichproben.

Warum wir die Unterschiede ausgleichen

Sie fragen sich vielleicht: Warum nicht einfach die Rohdifferenzen vom Mittelwert mitteln?

Das Problem besteht darin, dass sich positive und negative Abweichungen aufheben. Für den obigen Datensatz liegen einige Werte über dem Mittelwert und andere darunter. Wenn man sie alle ohne Quadrieren addiert, erhält man immer Null.

Durch die Quadrierung werden die negativen Vorzeichen entfernt, sodass alle Abweichungen positiv zur Gesamtspanne beitragen.

Praktische Anwendungen

Finanzen: Die Portfoliovarianz misst das Anlagerisiko. Ein Portfolio mit einer Varianz von 0,04 ist weniger riskant als eines mit einer Varianz von 0,16 – selbst wenn beide die gleiche erwartete Rendite haben.

Qualitätskontrolle: Ein Herstellungsprozess mit geringer Varianz führt zu einer konsistenteren Ausgabe. Hohe Varianz bedeutet unvorhersehbare Ergebnisse.

Wissenschaft: In Experimenten deutet eine hohe Varianz zwischen wiederholten Messungen auf Messfehler oder unkontrollierte Variablen hin.

Sportanalysen: Die Varianz der Spielerleistung zeigt Ihnen, ob ein Spieler konstant (geringe Varianz) oder schwankend (hohe Varianz) ist.

Häufige Fehler

Verwendung von N anstelle von n − 1 für Stichproben – Dadurch wird die wahre Populationsvarianz unterschätzt. Verwenden Sie für Beispieldaten immer n − 1.

Das Quadrieren vergessen – Ein häufiger Fehler besteht darin, die Rohdifferenzen und nicht die quadrierten Differenzen zu mitteln.

Varianz mit Bereich verwechseln – Bereich ist einfach das Maximum minus dem Minimum. Die Varianz berücksichtigt alle Datenpunkte, nicht nur die Extreme.

Kurzreferenz

Formel Wann zu verwenden
CODE0 Volle Bevölkerung
CODE0 Stichprobe aus der Bevölkerung
CODE0 Um die Standardabweichung zu erhalten

Weiter lesen