La variance mesure l'écart entre un ensemble de nombres et leur moyenne. Il s'agit de l'un des concepts les plus importants en statistique : il est utilisé en finance pour mesurer le risque d'investissement, en science pour évaluer la cohérence expérimentale et dans l'analyse quotidienne des données.

Qu'est-ce que l'écart ?

La variance est la moyenne des carrés des différences par rapport à la moyenne. Une faible variance signifie que les points de données se regroupent étroitement autour de la moyenne. Une variance élevée signifie qu’ils sont largement répandus.

Il en existe deux types :

  • Variance de la population (σ²) — utilisé lorsque vous disposez de données pour l'ensemble de la population
  • Variance de l'échantillon (s²) — utilisé lorsque vos données sont un échantillon d'une population plus large

En pratique, vous utiliserez presque toujours la variance de l’échantillon.

La formule de variance

Variation démographique

σ² = Σ(xᵢ - μ)² / N

Où:

  • xᵢ = chaque point de données
  • μ = la moyenne de la population
  • N = nombre de points de données

Écart de l'échantillon

s² = Σ(xᵢ - x̄)² / (n - 1)

Où:

  • x̄ = la moyenne de l'échantillon
  • n - 1 = degrés de liberté (correction de Bessel)

Le CODE0 dans la variance de l'échantillon corrige le fait qu'un échantillon a tendance à sous-estimer la véritable répartition de la population.

Exemple étape par étape

Ensemble de données : 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

Étape 1 : Calculez la moyenne

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

Étape 2 : Soustrayez la moyenne de chaque valeur et mettez le résultat au carré

Valeur Valeur - Moyenne (Valeur − Moyenne)²
4 4 − 5,2 = −1,2 1.44
8 8 − 5,2 = 2,8 7.84
6 6 − 5,2 = 0,8 0.64
5 5 − 5,2 = −0,2 0.04
3 3 − 5,2 = −2,2 4.84
2 2 − 5,2 = −3,2 10.24
8 8 − 5,2 = 2,8 7.84
9 9 − 5,2 = 3,8 14.44
2 2 − 5,2 = −3,2 10.24
5 5 − 5,2 = −0,2 0.04

Étape 3 : Additionnez les différences au carré

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

Étape 4 : Diviser par n − 1 (variance de l'échantillon)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

La variance de l'échantillon est de 6,4.

Variance par rapport à l'écart type

L'écart type est simplement la racine carrée de la variance :

s = √s² = √6.4 ≈ 2.53

L'écart type est exprimé dans les mêmes unités que les données originales, ce qui facilite son interprétation. Si vos données sont en kilogrammes, l'écart type est en kilogrammes. L'écart est en kilogrammes². C'est pourquoi l'écart type est plus couramment signalé, mais la variance est utilisée dans de nombreux calculs statistiques.

Population vs échantillon : quand utiliser chacun

Situation Utiliser
Vous disposez de données pour chaque membre du groupe Variance de la population (÷ N)
Vos données sont un échantillon d'un groupe plus large Variance de l'échantillon (÷ n − 1)
Comparaison avec d'autres tests statistiques Habituellement, la variance de l'échantillon
Votre ensemble de données est une image complète Variation de la population

En cas de doute, utilisez la variance de l'échantillon. La plupart des ensembles de données du monde réel sont des échantillons.

Pourquoi nous comblons les différences

Vous vous demandez peut-être : pourquoi ne pas simplement faire la moyenne des différences brutes par rapport à la moyenne ?

Le problème est que les écarts positifs et négatifs s’annulent. Pour l'ensemble de données ci-dessus, certaines valeurs sont supérieures à la moyenne et d'autres sont inférieures. Si vous les additionnez tous sans mettre au carré, vous obtenez toujours zéro.

La mise au carré supprime les signes négatifs, de sorte que tous les écarts contribuent positivement au spread total.

Applications pratiques

Finance : La variance du portefeuille mesure le risque d'investissement. Un portefeuille avec une variance de 0,04 est moins risqué qu'un portefeuille avec une variance de 0,16, même si les deux ont le même rendement attendu.

Contrôle qualité : Un processus de fabrication avec une faible variance produit un résultat plus cohérent. Une variance élevée signifie des résultats imprévisibles.

Science : Dans les expériences, une variance élevée entre des mesures répétées suggère une erreur de mesure ou des variables non contrôlées.

Analyses sportives : La variance des performances des joueurs vous indique si un joueur est cohérent (faible variance) ou continu (variance élevée).

Erreurs courantes

Utiliser N au lieu de n − 1 pour les échantillons — Cela sous-estime la véritable variance de la population. Utilisez toujours n − 1 pour les exemples de données.

Oublier le carré — Une erreur courante consiste à faire la moyenne des différences brutes plutôt que des différences au carré.

** Variation confuse avec plage ** — La plage est simplement le maximum moins le minimum. La variance prend en compte tous les points de données, pas seulement les extrêmes.

Référence rapide

Formule Quand utiliser
CODE0 Population totale
CODE0 Échantillon de la population
CODE0 Pour obtenir l'écart type

Lire ensuite