La varianza misura la distanza di un insieme di numeri dalla loro media. È uno dei concetti più importanti in statistica: utilizzato in finanza per misurare il rischio di investimento, in scienza per valutare la coerenza sperimentale e nell'analisi quotidiana dei dati.

Cos'è la varianza?

La varianza è la media delle differenze al quadrato dalla media. Una varianza bassa significa che i punti dati si raggruppano strettamente attorno alla media. Una varianza elevata significa che sono ampiamente diffusi.

Ne esistono di due tipi:

  • Varianza della popolazione (σ²): utilizzata quando si dispone di dati per l'intera popolazione
  • Varianza del campione (s²): utilizzata quando i dati sono un campione di una popolazione più ampia

In pratica, utilizzerai quasi sempre la varianza del campione.

La formula della varianza

Varianza della popolazione

σ² = Σ(xᵢ - μ)² / N

Dove:

  • xᵢ = ciascun punto dati
  • μ = media della popolazione
  • N = numero di punti dati

Varianza del campione

s² = Σ(xᵢ - x̄)² / (n - 1)

Dove:

  • x̄ = la media campionaria
  • n - 1 = gradi di libertà (correzione di Bessel)

Il CODICE0 nella varianza campionaria corregge il fatto che un campione tende a sottostimare la reale diffusione della popolazione.

Esempio passo passo

Set di dati: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

Passaggio 1: calcola la media

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

Passaggio 2: sottrai la media da ciascun valore ed eleva il risultato al quadrato

Valore Valore - Media (Valore − Media)²
4 4 − 5,2 = −1,2 1.44
8 8 − 5,2 = 2,8 7.84
6 6 − 5,2 = 0,8 0.64
5 5 − 5,2 = −0,2 0.04
3 3 − 5,2 = −2,2 4.84
2 2 − 5,2 = −3,2 10.24
8 8 − 5,2 = 2,8 7.84
9 9 − 5,2 = 3,8 14.44
2 2 − 5,2 = −3,2 10.24
5 5 − 5,2 = −0,2 0.04

Passaggio 3: somma le differenze al quadrato

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

Passaggio 4: dividere per n − 1 (varianza campionaria)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

La varianza campionaria è 6,4.

Varianza rispetto alla deviazione standard

La deviazione standard è semplicemente la radice quadrata della varianza:

s = √s² = √6.4 ≈ 2.53

La deviazione standard è espressa nelle stesse unità dei dati originali, facilitandone l'interpretazione. Se i tuoi dati sono in chilogrammi, la deviazione standard è in chilogrammi. La varianza è in chilogrammi². Questo è il motivo per cui la deviazione standard viene riportata più comunemente, ma la varianza viene utilizzata in molti calcoli statistici.

Popolazione vs campione: quando utilizzarli

Situazione Utilizzo
Hai dati per ogni membro del gruppo Varianza della popolazione (÷ N)
I tuoi dati sono un campione di un gruppo più ampio Varianza campionaria (÷ n − 1)
Confronto con altri test statistici Solitamente varianza campionaria
Il tuo set di dati è il quadro completo Varianza della popolazione

In caso di dubbio, utilizza la varianza campione. La maggior parte dei set di dati reali sono campioni.

Perché risolviamo le differenze

Potresti chiederti: perché non limitarsi a fare una media delle differenze grezze rispetto alla media?

Il problema è che le deviazioni positive e negative si annullano. Per il set di dati sopra, alcuni valori sono superiori alla media e altri sono inferiori. Se li sommi tutti senza elevarli al quadrato, ottieni sempre zero.

La quadratura rimuove i segni negativi, quindi tutte le deviazioni contribuiscono positivamente allo spread totale.

Applicazioni pratiche

Finanza: la varianza del portafoglio misura il rischio di investimento. Un portafoglio con varianza di 0,04 è meno rischioso di uno con varianza di 0,16, anche se entrambi hanno lo stesso rendimento atteso.

Controllo qualità: un processo di produzione con varianza bassa produce un output più coerente. Una varianza elevata significa risultati imprevedibili.

Scienza: negli esperimenti, un'elevata varianza tra misurazioni ripetute suggerisce errori di misurazione o variabili non controllate.

Analisi sportiva: la varianza delle prestazioni del giocatore indica se un giocatore è costante (varianza bassa) o eccezionale (varianza alta).

Errori comuni

Utilizzando N invece di n − 1 per i campioni — Questo sottostima la vera varianza della popolazione. Utilizzare sempre n - 1 per i dati campione.

Dimenticare il quadrato — Un errore comune è fare la media delle differenze grezze anziché delle differenze al quadrato.

Confondere la varianza con l'intervallo — L'intervallo è semplicemente il massimo meno il minimo. La varianza tiene conto di tutti i punti dati, non solo degli estremi.

Riferimento rapido

Formula Quando usarlo
CODICE0 Popolazione completa
CODICE0 Campione dalla popolazione
CODICE0 Per ottenere la deviazione standard

Leggi il seguito