Дисперсія вимірює, наскільки набір чисел відрізняється від їх середнього значення. Це одне з найважливіших понять у статистиці, яке використовується у фінансах для вимірювання інвестиційного ризику, у науці для оцінки узгодженості експериментів і в щоденному аналізі даних.

Що таке дисперсія?

Дисперсія – це середнє значення квадратів відмінностей від середнього. Низька дисперсія означає, що точки даних щільно групуються навколо середнього. Висока дисперсія означає, що вони широко поширені.

Існує два види:

  • Дисперсія сукупності (σ²) — використовується, якщо у вас є дані для всієї сукупності
  • Дисперсія вибірки (s²) — використовується, коли ваші дані є вибіркою з більшої сукупності

На практиці ви майже завжди будете використовувати дисперсію вибірки.

Формула дисперсії

Відхилення населення

σ² = Σ(xᵢ - μ)² / N

Де:

  • xᵢ = кожна точка даних
  • μ = середнє значення сукупності
  • N = кількість точок даних

Дисперсія вибірки

s² = Σ(xᵢ - x̄)² / (n - 1)

Де:

  • x̄ = вибіркове середнє значення
  • n - 1 = ступені свободи (поправка Бесселя)

CODE0 у дисперсії вибірки коригує той факт, що вибірка має тенденцію недооцінювати справжній розподіл сукупності.

Покроковий приклад

Набір даних: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

Крок 1: обчисліть середнє значення

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

Крок 2: відніміть середнє від кожного значення та зведіть результат у квадрат

Значення Значення − Середнє значення (Значення − Середнє)²
4 4 − 5,2 = −1,2 1.44
8 8 − 5,2 = 2,8 7.84
6 6 − 5,2 = 0,8 0.64
5 5 − 5,2 = −0,2 0.04
3 3 − 5,2 = −2,2 4.84
2 2 − 5,2 = −3,2 10.24
8 8 − 5,2 = 2,8 7.84
9 9 − 5,2 = 3,8 14.44
2 2 − 5,2 = −3,2 10.24
5 5 − 5,2 = −0,2 0.04

Крок 3: підсумуйте квадрати різниць

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

Крок 4: розділити на n − 1 (дисперсія вибірки)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

Дисперсія вибірки становить 6,4.

Дисперсія проти стандартного відхилення

Стандартне відхилення – це просто квадратний корінь із дисперсії:

s = √s² = √6.4 ≈ 2.53

Стандартне відхилення виражається в тих самих одиницях, що й вихідні дані, що полегшує його інтерпретацію. Якщо ваші дані в кілограмах, стандартне відхилення вказано в кілограмах. Відхилення в кілограмах². Ось чому стандартне відхилення частіше повідомляється, але дисперсія використовується в багатьох статистичних розрахунках.

Популяція проти вибірки: коли використовувати кожну з них

Ситуація використання
У вас є дані для кожного члена групи Дисперсія популяції (÷ N)
Ваші дані є зразком із більшої групи Дисперсія вибірки (÷ n − 1)
Порівняння з іншими статистичними тестами Зазвичай вибіркова дисперсія
Ваш набір даних – це повна картина Дисперсія популяції

Якщо сумніваєтеся, використовуйте вибіркову дисперсію. Більшість реальних наборів даних є зразками.

Чому ми компенсуємо відмінності

Ви можете запитати: чому б просто не усереднити сирі відмінності від середнього?

Проблема полягає в тому, що позитивні та негативні відхилення компенсуються. Для наведеного вище набору даних деякі значення перевищують середнє, а деякі – нижче. Якщо скласти їх усі, не зводячи в квадрат, завжди вийде нуль.

Зведення в квадрат усуває негативні знаки, тому всі відхилення позитивно впливають на загальний спред.

Практичні застосування

Фінанси: дисперсія портфеля вимірює інвестиційний ризик. Портфель з дисперсією 0,04 менш ризикований, ніж портфель з дисперсією 0,16, навіть якщо обидва мають однакову очікувану дохідність.

Контроль якості: виробничий процес із низькою дисперсією дає стабільніші результати. Висока дисперсія означає непередбачувані результати.

Наука: в експериментах висока різниця між повторними вимірюваннями свідчить про помилку вимірювання або неконтрольовані змінні.

Спортивна аналітика: Дисперсія продуктивності гравця показує, чи є гравець постійним (низька дисперсія) чи смугастим (висока дисперсія).

Поширені помилки

Використання N замість n − 1 для вибірок — це недооцінює справжню дисперсію сукупності. Завжди використовуйте n − 1 для вибіркових даних.

Забули звести в квадрат — поширеною помилкою є усереднення необроблених різниць, а не квадратних різниць.

Плутання дисперсії з діапазоном — Діапазон — це просто максимум мінус мінімум. Дисперсія враховує всі точки даних, а не лише екстремуми.

Коротка довідка

Формула Коли використовувати
КОД0 Повне населення
КОД0 Вибірка з населення
КОД0 Щоб отримати стандартне відхилення

Читати далі