Дисперсията измерва колко е разпръснат набор от числа спрямо тяхната средна стойност. Това е една от най-важните концепции в статистиката — използвана във финансите за измерване на инвестиционния риск, в науката за оценка на експерименталната последователност и в ежедневния анализ на данни.

Какво е дисперсия?

Дисперсията е средната стойност на разликите на квадрат от средната стойност. Ниската дисперсия означава, че точките от данни се групират плътно около средната стойност. Голямото отклонение означава, че те са широко разпространени.

Има два вида:

  • Дисперсия на популацията (σ²) — използва се, когато имате данни за цялата популация
  • Дисперсия на извадката (s²) — използва се, когато вашите данни са извадка от по-голяма популация

На практика почти винаги ще използвате дисперсия на извадката.

Формулата на дисперсията

Вариация на населението

σ² = Σ(xᵢ - μ)² / N

където:

  • xᵢ = всяка точка от данни
  • μ = средната стойност на популацията
  • N = брой точки от данни

Примерно отклонение

s² = Σ(xᵢ - x̄)² / (n - 1)

където:

  • x̄ = средната стойност на извадката
  • n - 1 = степени на свобода (корекция на Бесел)

CODE0 в дисперсията на извадката коригира факта, че извадката е склонна да подценява истинското разпространение на популацията.

Пример стъпка по стъпка

Набор от данни: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

Стъпка 1: Изчислете средната стойност

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

Стъпка 2: Извадете средната стойност от всяка стойност и повдигнете резултата на квадрат

Стойност Стойност − Средна стойност (Стойност − Средна стойност)²
4 4 − 5,2 = −1,2 1.44
8 8 − 5,2 = 2,8 7.84
6 6 − 5,2 = 0,8 0.64
5 5 − 5,2 = −0,2 0.04
3 3 − 5,2 = −2,2 4.84
2 2 − 5,2 = −3,2 10.24
8 8 − 5,2 = 2,8 7.84
9 9 − 5,2 = 3,8 14.44
2 2 − 5,2 = −3,2 10.24
5 5 − 5,2 = −0,2 0.04

Стъпка 3: Сумирайте разликите на квадрат

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

Стъпка 4: Разделяне на n − 1 (извадкова дисперсия)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

Дисперсията на извадката е 6,4.

Дисперсия срещу стандартно отклонение

Стандартното отклонение е просто корен квадратен от дисперсията:

s = √s² = √6.4 ≈ 2.53

Стандартното отклонение се изразява в същите единици като оригиналните данни, което го прави по-лесно за тълкуване. Ако вашите данни са в килограми, стандартното отклонение е в килограми. Разликата е в килограми². Ето защо стандартното отклонение се отчита по-често, но дисперсията се използва в много статистически изчисления.

Съвкупност спрямо извадка: Кога да се използва всяко

Ситуация Използвайте
Имате данни за всеки член на групата Дисперсия на популацията (÷ N)
Вашите данни са извадка от по-голяма група Дисперсия на извадката (÷ n − 1)
Сравнение с други статистически тестове Обикновено дисперсията на пробата
Вашият набор от данни е пълната картина Дисперсия на населението

Когато се съмнявате, използвайте дисперсия на извадката. Повечето набори от данни от реалния свят са извадки.

Защо компенсираме разликите

Може би се чудите: защо просто не осредните суровите разлики от средната стойност?

Проблемът е, че положителните и отрицателните отклонения се компенсират. За набора от данни по-горе някои стойности са над средната, а други са под. Ако ги съберете всички без повдигане на квадрат, винаги получавате нула.

Квадратурата премахва отрицателните знаци, така че всички отклонения допринасят положително за общия спред.

Практически приложения

Финанси: Дисперсията на портфейла измерва инвестиционния риск. Портфейл с дисперсия от 0,04 е по-малко рисков от този с дисперсия от 0,16 — дори ако и двата имат еднаква очаквана възвръщаемост.

**Контрол на качеството: ** Производствен процес с ниска вариация дава по-последователна продукция. Голямото отклонение означава непредвидими резултати.

Наука: При експерименти голямото отклонение между повтарящите се измервания предполага грешка в измерването или неконтролирани променливи.

Спортни анализи: Дисперсията в представянето на играча ви казва дали даден играч е постоянен (ниска вариация) или на ивици (висока вариация).

Често срещани грешки

Използване на N вместо n − 1 за проби — Това подценява истинската вариация на популацията. Винаги използвайте n − 1 за примерни данни.

Забравяне на повдигане на квадрат — Често срещана грешка е усредняването на суровите разлики, а не на квадратните разлики.

Объркваща вариация с диапазон — Диапазонът е просто максимумът минус минимумът. Дисперсията отчита всички точки от данни, а не само крайностите.

Бърза справка

Формула Кога да използвате
КОД0 Пълно население
КОД0 Извадка от населението
КОД0 За да получите стандартно отклонение

Прочетете следващия