Дисперсія вимірює, наскільки набір чисел відрізняється від їх середнього значення. Це одне з найважливіших понять у статистиці, яке використовується у фінансах для вимірювання інвестиційного ризику, у науці для оцінки узгодженості експериментів і в щоденному аналізі даних.
Що таке дисперсія?
Дисперсія – це середнє значення квадратів відмінностей від середнього. Низька дисперсія означає, що точки даних щільно групуються навколо середнього. Висока дисперсія означає, що вони широко поширені.
Існує два види:
- Дисперсія сукупності (σ²) — використовується, якщо у вас є дані для всієї сукупності
- Дисперсія вибірки (s²) — використовується, коли ваші дані є вибіркою з більшої сукупності
На практиці ви майже завжди будете використовувати дисперсію вибірки.
Формула дисперсії
Відхилення населення
σ² = Σ(xᵢ - μ)² / N
Де:
- xᵢ = кожна точка даних
- μ = середнє значення сукупності
- N = кількість точок даних
Дисперсія вибірки
s² = Σ(xᵢ - x̄)² / (n - 1)
Де:
- x̄ = вибіркове середнє значення
- n - 1 = ступені свободи (поправка Бесселя)
CODE0 у дисперсії вибірки коригує той факт, що вибірка має тенденцію недооцінювати справжній розподіл сукупності.
Покроковий приклад
Набір даних: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5
Крок 1: обчисліть середнє значення
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
Крок 2: відніміть середнє від кожного значення та зведіть результат у квадрат
| Значення | Значення − Середнє значення | (Значення − Середнє)² |
|---|---|---|
| 4 | 4 − 5,2 = −1,2 | 1.44 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 6 | 6 − 5,2 = 0,8 | 0.64 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
| 3 | 3 − 5,2 = −2,2 | 4.84 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 9 | 9 − 5,2 = 3,8 | 14.44 |
| 2 | 2 − 5,2 = −3,2 | 10.24 |
| 5 | 5 − 5,2 = −0,2 | 0.04 |
Крок 3: підсумуйте квадрати різниць
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
Крок 4: розділити на n − 1 (дисперсія вибірки)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
Дисперсія вибірки становить 6,4.
Дисперсія проти стандартного відхилення
Стандартне відхилення – це просто квадратний корінь із дисперсії:
s = √s² = √6.4 ≈ 2.53
Стандартне відхилення виражається в тих самих одиницях, що й вихідні дані, що полегшує його інтерпретацію. Якщо ваші дані в кілограмах, стандартне відхилення вказано в кілограмах. Відхилення в кілограмах². Ось чому стандартне відхилення частіше повідомляється, але дисперсія використовується в багатьох статистичних розрахунках.
Популяція проти вибірки: коли використовувати кожну з них
| Ситуація | використання |
|---|---|
| У вас є дані для кожного члена групи | Дисперсія популяції (÷ N) |
| Ваші дані є зразком із більшої групи | Дисперсія вибірки (÷ n − 1) |
| Порівняння з іншими статистичними тестами | Зазвичай вибіркова дисперсія |
| Ваш набір даних – це повна картина | Дисперсія популяції |
Якщо сумніваєтеся, використовуйте вибіркову дисперсію. Більшість реальних наборів даних є зразками.
Чому ми компенсуємо відмінності
Ви можете запитати: чому б просто не усереднити сирі відмінності від середнього?
Проблема полягає в тому, що позитивні та негативні відхилення компенсуються. Для наведеного вище набору даних деякі значення перевищують середнє, а деякі – нижче. Якщо скласти їх усі, не зводячи в квадрат, завжди вийде нуль.
Зведення в квадрат усуває негативні знаки, тому всі відхилення позитивно впливають на загальний спред.
Практичні застосування
Фінанси: дисперсія портфеля вимірює інвестиційний ризик. Портфель з дисперсією 0,04 менш ризикований, ніж портфель з дисперсією 0,16, навіть якщо обидва мають однакову очікувану дохідність.
Контроль якості: виробничий процес із низькою дисперсією дає стабільніші результати. Висока дисперсія означає непередбачувані результати.
Наука: в експериментах висока різниця між повторними вимірюваннями свідчить про помилку вимірювання або неконтрольовані змінні.
Спортивна аналітика: Дисперсія продуктивності гравця показує, чи є гравець постійним (низька дисперсія) чи смугастим (висока дисперсія).
Поширені помилки
Використання N замість n − 1 для вибірок — це недооцінює справжню дисперсію сукупності. Завжди використовуйте n − 1 для вибіркових даних.
Забули звести в квадрат — поширеною помилкою є усереднення необроблених різниць, а не квадратних різниць.
Плутання дисперсії з діапазоном — Діапазон — це просто максимум мінус мінімум. Дисперсія враховує всі точки даних, а не лише екстремуми.
Коротка довідка
| Формула | Коли використовувати |
|---|---|
| КОД0 | Повне населення |
| КОД0 | Вибірка з населення |
| КОД0 | Щоб отримати стандартне відхилення |