La varianza misura la distanza di un insieme di numeri dalla loro media. È uno dei concetti più importanti in statistica: utilizzato in finanza per misurare il rischio di investimento, in scienza per valutare la coerenza sperimentale e nell'analisi quotidiana dei dati.
Cos'è la varianza?
La varianza è la media delle differenze al quadrato dalla media. Una varianza bassa significa che i punti dati si raggruppano strettamente attorno alla media. Una varianza elevata significa che sono ampiamente diffusi.
Ne esistono di due tipi:
- Varianza della popolazione (σ²): utilizzata quando si dispone di dati per l'intera popolazione
- Varianza del campione (s²): utilizzata quando i dati sono un campione di una popolazione più ampia
In pratica, utilizzerai quasi sempre la varianza del campione.
La formula della varianza
Varianza della popolazione
σ² = Σ(xᵢ - μ)² / N
Dove:
- xᵢ = ciascun punto dati
- μ = media della popolazione
- N = numero di punti dati
Varianza del campione
s² = Σ(xᵢ - x̄)² / (n - 1)
Dove:
- x̄ = la media campionaria
- n - 1 = gradi di libertà (correzione di Bessel)
Il CODICE0 nella varianza campionaria corregge il fatto che un campione tende a sottostimare la reale diffusione della popolazione.
Esempio passo passo
Set di dati: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5
Passaggio 1: calcola la media
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
Passaggio 2: sottrai la media da ciascun valore ed eleva il risultato al quadrato
| Valore | Valore - Media | (Valore − Media)² |
|---|---|---|
| 4 | 4 − 5,2 = −1,2 | 1.44 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 6 | 6 − 5,2 = 0,8 | 0.64 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
| 3 | 3 − 5,2 = −2,2 | 4.84 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 9 | 9 − 5,2 = 3,8 | 14.44 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
Passaggio 3: somma le differenze al quadrato
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
Passaggio 4: dividere per n − 1 (varianza campionaria)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
La varianza campionaria è 6,4.
Varianza rispetto alla deviazione standard
La deviazione standard è semplicemente la radice quadrata della varianza:
s = √s² = √6.4 ≈ 2.53
La deviazione standard è espressa nelle stesse unità dei dati originali, facilitandone l'interpretazione. Se i tuoi dati sono in chilogrammi, la deviazione standard è in chilogrammi. La varianza è in chilogrammi². Questo è il motivo per cui la deviazione standard viene riportata più comunemente, ma la varianza viene utilizzata in molti calcoli statistici.
Popolazione vs campione: quando utilizzarli
| Situazione | Utilizzo |
|---|---|
| Hai dati per ogni membro del gruppo | Varianza della popolazione (÷ N) |
| I tuoi dati sono un campione di un gruppo più ampio | Varianza campionaria (÷ n − 1) |
| Confronto con altri test statistici | Solitamente varianza campionaria |
| Il tuo set di dati è il quadro completo | Varianza della popolazione |
In caso di dubbio, utilizza la varianza campione. La maggior parte dei set di dati reali sono campioni.
Perché risolviamo le differenze
Potresti chiederti: perché non limitarsi a fare una media delle differenze grezze rispetto alla media?
Il problema è che le deviazioni positive e negative si annullano. Per il set di dati sopra, alcuni valori sono superiori alla media e altri sono inferiori. Se li sommi tutti senza elevarli al quadrato, ottieni sempre zero.
La quadratura rimuove i segni negativi, quindi tutte le deviazioni contribuiscono positivamente allo spread totale.
Applicazioni pratiche
Finanza: la varianza del portafoglio misura il rischio di investimento. Un portafoglio con varianza di 0,04 è meno rischioso di uno con varianza di 0,16, anche se entrambi hanno lo stesso rendimento atteso.
Controllo qualità: un processo di produzione con varianza bassa produce un output più coerente. Una varianza elevata significa risultati imprevedibili.
Scienza: negli esperimenti, un'elevata varianza tra misurazioni ripetute suggerisce errori di misurazione o variabili non controllate.
Analisi sportiva: la varianza delle prestazioni del giocatore indica se un giocatore è costante (varianza bassa) o eccezionale (varianza alta).
Errori comuni
Utilizzando N invece di n − 1 per i campioni — Questo sottostima la vera varianza della popolazione. Utilizzare sempre n - 1 per i dati campione.
Dimenticare il quadrato — Un errore comune è fare la media delle differenze grezze anziché delle differenze al quadrato.
Confondere la varianza con l'intervallo — L'intervallo è semplicemente il massimo meno il minimo. La varianza tiene conto di tutti i punti dati, non solo degli estremi.
Riferimento rapido
| Formula | Quando usarlo |
|---|---|
| CODICE0 | Popolazione completa |
| CODICE0 | Campione dalla popolazione |
| CODICE0 | Per ottenere la deviazione standard |