Дисперсия измеряет, насколько набор чисел отличается от их среднего значения. Это одно из самых важных понятий в статистике, которое используется в финансах для измерения инвестиционного риска, в науке для оценки последовательности экспериментов и в повседневном анализе данных.

Что такое дисперсия?

Дисперсия — это среднее квадратов различий от среднего значения. Низкая дисперсия означает, что точки данных плотно группируются вокруг среднего значения. Высокая дисперсия означает, что они широко распространены.

Есть два типа:

  • Дисперсия генеральной совокупности (σ²) — используется, когда у вас есть данные для всей генеральной совокупности.
  • Выборочная дисперсия (s²) — используется, когда ваши данные представляют собой выборку из более крупной совокупности.

На практике вы почти всегда будете использовать выборочную дисперсию.

Формула дисперсии

Дисперсия населения

σ² = Σ(xᵢ - μ)² / N

Где:

  • xᵢ = каждая точка данных
  • μ = среднее значение генеральной совокупности
  • N = количество точек данных

Выборочная дисперсия

s² = Σ(xᵢ - x̄)² / (n - 1)

Где:

  • x̄ = выборочное среднее
  • n - 1 = степени свободы (поправка Бесселя)

CODE0 в выборочной дисперсии корректирует тот факт, что выборка имеет тенденцию недооценивать истинное распределение совокупности.

Пошаговый пример

Набор данных: 4, 8, 6, 5, 3, 2, 8, 9, 2, 5

Шаг 1. Рассчитайте среднее значение

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

Шаг 2. Вычтите среднее значение из каждого значения и возведите результат в квадрат

Ценить Значение — среднее (Значение — среднее)²
4 4 - 5,2 = -1,2 1.44
8 8 − 5,2 = 2,8 7.84
6 6 − 5,2 = 0,8 0.64
5 5 - 5,2 = -0,2 0.04
3 3 - 5,2 = -2,2 4.84
2 2 - 5,2 = -3,2 10.24
8 8 − 5,2 = 2,8 7.84
9 9 − 5,2 = 3,8 14.44
2 2 - 5,2 = -3,2 10.24
5 5 - 5,2 = -0,2 0.04

Шаг 3. Суммируйте квадраты разностей

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

Шаг 4. Разделите на n − 1 (выборочная дисперсия)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

Выборочная дисперсия составляет 6,4.

Дисперсия против стандартного отклонения

Стандартное отклонение — это просто квадратный корень из дисперсии:

s = √s² = √6.4 ≈ 2.53

Стандартное отклонение выражается в тех же единицах, что и исходные данные, что упрощает интерпретацию. Если ваши данные указаны в килограммах, стандартное отклонение указывается в килограммах. Разница указана в килограммах². Вот почему чаще всего сообщается о стандартном отклонении, но дисперсия используется во многих статистических расчетах.

Популяция или выборка: когда использовать каждый

Ситуация Использовать
У вас есть данные по каждому члену группы Дисперсия населения (÷ N)
Ваши данные представляют собой выборку из более крупной группы. Выборочная дисперсия (÷ n - 1)
По сравнению с другими статистическими тестами Обычно выборочная дисперсия
Ваш набор данных представляет собой полную картину Дисперсия населения

Если есть сомнения, используйте выборочную дисперсию. Большинство реальных наборов данных представляют собой выборки.

Почему мы сглаживаем различия

Вы можете задаться вопросом: почему бы просто не усреднить необработанные различия со средним значением?

Проблема в том, что положительные и отрицательные отклонения компенсируются. В приведенном выше наборе данных некоторые значения выше среднего, а некоторые ниже. Если сложить их все, не возводя в квадрат, вы всегда получите ноль.

Возведение в квадрат убирает отрицательные знаки, поэтому все отклонения положительно влияют на общий разброс.

Практическое применение

Финансы. Отклонение портфеля измеряет инвестиционный риск. Портфель с дисперсией 0,04 менее рискован, чем портфель с дисперсией 0,16, даже если оба имеют одинаковую ожидаемую доходность.

Контроль качества. Производственный процесс с низкими отклонениями обеспечивает более стабильный результат. Высокая дисперсия означает непредсказуемые результаты.

Наука. В экспериментах высокая разница между повторными измерениями предполагает ошибку измерения или наличие неконтролируемых переменных.

Спортивная аналитика. Разница в результативности игроков показывает, является ли игрок стабильным (низкая дисперсия) или нестабильным (высокая дисперсия).

Распространенные ошибки

Использование N вместо n - 1 для выборок — это занижает истинную дисперсию генеральной совокупности. Всегда используйте n - 1 для выборочных данных.

Забываем возвести в квадрат. Распространенной ошибкой является усреднение необработанных разностей, а не возведенных в квадрат.

Сбивает с толку дисперсию и диапазон. Диапазон — это просто максимум минус минимум. Дисперсия учитывает все точки данных, а не только крайние значения.

Краткий справочник

Формула Когда использовать
КОД0 Полное население
КОД0 Выборка из населения
КОД0 Чтобы получить стандартное отклонение

Читать дальше