Дисперсия измеряет, насколько набор чисел отличается от их среднего значения. Это одно из самых важных понятий в статистике, которое используется в финансах для измерения инвестиционного риска, в науке для оценки последовательности экспериментов и в повседневном анализе данных.
Что такое дисперсия?
Дисперсия — это среднее квадратов различий от среднего значения. Низкая дисперсия означает, что точки данных плотно группируются вокруг среднего значения. Высокая дисперсия означает, что они широко распространены.
Есть два типа:
- Дисперсия генеральной совокупности (σ²) — используется, когда у вас есть данные для всей генеральной совокупности.
- Выборочная дисперсия (s²) — используется, когда ваши данные представляют собой выборку из более крупной совокупности.
На практике вы почти всегда будете использовать выборочную дисперсию.
Формула дисперсии
Дисперсия населения
σ² = Σ(xᵢ - μ)² / N
Где:
- xᵢ = каждая точка данных
- μ = среднее значение генеральной совокупности
- N = количество точек данных
Выборочная дисперсия
s² = Σ(xᵢ - x̄)² / (n - 1)
Где:
- x̄ = выборочное среднее
- n - 1 = степени свободы (поправка Бесселя)
CODE0 в выборочной дисперсии корректирует тот факт, что выборка имеет тенденцию недооценивать истинное распределение совокупности.
Пошаговый пример
Набор данных: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5
Шаг 1. Рассчитайте среднее значение
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
Шаг 2. Вычтите среднее значение из каждого значения и возведите результат в квадрат
| Ценить | Значение — среднее | (Значение — среднее)² |
|---|---|---|
| 4 | 4 - 5,2 = -1,2 | 1.44 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 6 | 6 − 5,2 = 0,8 | 0.64 |
| 5 | 5 - 5,2 = -0,2 | 0.04 |
| 3 | 3 - 5,2 = -2,2 | 4.84 |
| 2 | 2 - 5,2 = -3,2 | 10.24 |
| 8 | 8 − 5,2 = 2,8 | 7.84 |
| 9 | 9 − 5,2 = 3,8 | 14.44 |
| 2 | 2 - 5,2 = -3,2 | 10.24 |
| 5 | 5 - 5,2 = -0,2 | 0.04 |
Шаг 3. Суммируйте квадраты разностей
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
Шаг 4. Разделите на n − 1 (выборочная дисперсия)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
Выборочная дисперсия составляет 6,4.
Дисперсия против стандартного отклонения
Стандартное отклонение — это просто квадратный корень из дисперсии:
s = √s² = √6.4 ≈ 2.53
Стандартное отклонение выражается в тех же единицах, что и исходные данные, что упрощает интерпретацию. Если ваши данные указаны в килограммах, стандартное отклонение указывается в килограммах. Разница указана в килограммах². Вот почему чаще всего сообщается о стандартном отклонении, но дисперсия используется во многих статистических расчетах.
Популяция или выборка: когда использовать каждый
| Ситуация | Использовать |
|---|---|
| У вас есть данные по каждому члену группы | Дисперсия населения (÷ N) |
| Ваши данные представляют собой выборку из более крупной группы. | Выборочная дисперсия (÷ n - 1) |
| По сравнению с другими статистическими тестами | Обычно выборочная дисперсия |
| Ваш набор данных представляет собой полную картину | Дисперсия населения |
Если есть сомнения, используйте выборочную дисперсию. Большинство реальных наборов данных представляют собой выборки.
Почему мы сглаживаем различия
Вы можете задаться вопросом: почему бы просто не усреднить необработанные различия со средним значением?
Проблема в том, что положительные и отрицательные отклонения компенсируются. В приведенном выше наборе данных некоторые значения выше среднего, а некоторые ниже. Если сложить их все, не возводя в квадрат, вы всегда получите ноль.
Возведение в квадрат убирает отрицательные знаки, поэтому все отклонения положительно влияют на общий разброс.
Практическое применение
Финансы. Отклонение портфеля измеряет инвестиционный риск. Портфель с дисперсией 0,04 менее рискован, чем портфель с дисперсией 0,16, даже если оба имеют одинаковую ожидаемую доходность.
Контроль качества. Производственный процесс с низкими отклонениями обеспечивает более стабильный результат. Высокая дисперсия означает непредсказуемые результаты.
Наука. В экспериментах высокая разница между повторными измерениями предполагает ошибку измерения или наличие неконтролируемых переменных.
Спортивная аналитика. Разница в результативности игроков показывает, является ли игрок стабильным (низкая дисперсия) или нестабильным (высокая дисперсия).
Распространенные ошибки
Использование N вместо n - 1 для выборок — это занижает истинную дисперсию генеральной совокупности. Всегда используйте n - 1 для выборочных данных.
Забываем возвести в квадрат. Распространенной ошибкой является усреднение необработанных разностей, а не возведенных в квадрат.
Сбивает с толку дисперсию и диапазон. Диапазон — это просто максимум минус минимум. Дисперсия учитывает все точки данных, а не только крайние значения.
Краткий справочник
| Формула | Когда использовать |
|---|---|
| КОД0 | Полное население |
| КОД0 | Выборка из населения |
| КОД0 | Чтобы получить стандартное отклонение |