Статистика для начинающих: среднее значение, стандартное отклонение, проверка гипотез и многое другое

Статистика — это язык неопределенности, инструмент, который позволяет нам делать выводы на основе неполной информации. Читаете ли вы новостной опрос, интерпретируете результаты клинических испытаний или анализируете собственные данные, понимание этих основных концепций сделает вас гораздо более критичным читателем.

Описательная статистика: суммирование данных

Прежде чем вы сможете анализировать данные, вам необходимо их описать. Ключевыми показателями являются центральная тенденция (где середина?) и разброс (насколько изменчивы данные?).

Среднее, медиана и мода

Среднее арифметическое — это сумма, разделенная на количество. Это наиболее распространенное среднее значение, но оно очень чувствительно к выбросам.

Медиана – это среднее значение при сортировке данных. Он более надежен — одно экстремальное значение не сильно его изменит.

mode — наиболее часто встречающееся значение. Полезно для категориальных данных; менее полезен для непрерывных измерений.

Набор данных	Иметь в виду	медиана	Режим
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

Обратите внимание, как одно экстремальное значение (100) резко меняет среднее значение, но оставляет медиану нетронутой. Вот почему в статистике цен на жилье используется медианное значение: несколько особняков стоимостью в несколько миллионов фунтов могут ввести средние цены в заблуждение.

Стандартное отклонение и дисперсия

Дисперсия измеряет среднеквадратичное отклонение от среднего значения:

σ² = Σ(xi - x̄)² / n

Стандартное отклонение — это квадратный корень дисперсии — оно выражается в тех же единицах измерения, что и исходные данные, что делает его интерпретируемым:

σ = √[Σ(xi - x̄)² / n]

Правило 68-95-99.7 для нормально распределенных данных:

68% значений находятся в пределах 1 стандартного отклонения от среднего значения
95% в пределах 2 стандартных отклонений
99,7% в пределах 3 стандартных отклонений

Примечание. Используйте n в знаменателе стандартного отклонения генеральной совокупности; используйте n-1 для выборочной оценки (это называется поправкой Бесселя и корректирует небольшое занижение, которое происходит с выборками).

Нормальное распределение

Нормальное (гауссово) распределение представляет собой колоколообразную кривую, которая встречается повсюду в природе и статистике. Он полностью описывается двумя параметрами: средним значением (μ) и стандартным отклонением (σ).

z-показатель преобразует любое значение в «сколько стандартных отклонений от среднего значения»:

z = (x - μ) / σ

Z-показатель 1,96 соответствует 97,5-му процентилю — значению, выше которого находится только 2,5% распределения. Это постоянно появляется в статистике из-за доверительных интервалов.

Центральная предельная теорема объясняет, почему нормальное распределение так важно: независимо от формы исходной совокупности, распределение выборочных средних приближается к нормальному по мере увеличения размера выборки. Вот почему так много статистических тестов предполагают нормальность, даже если необработанные данные не распределены нормально.

Доверительные интервалы

95-процентный доверительный интервал не означает, что «существует 95-процентная вероятность того, что истинное значение находится в этом диапазоне». Это означает: «Если бы мы повторили этот процесс выборки много раз, 95% вычисленных нами интервалов содержали бы истинное значение».

Для доли p из выборки размера n:

CI = p ± z × √(p(1-p)/n)

Для 95% уверенности z = 1,96. Для 99% z = 2,576.

Погрешность — это часть ±: z × √(p(1-p)/n). Когда опрос сообщает «±3 процентных пункта», это предел погрешности.

Проверка гипотез

Каждая проверка гипотезы имеет одну и ту же структуру:

H₀ (нулевая гипотеза): Значение по умолчанию — обычно «нет эффекта», «нет разницы», «нет связи».
H₁ (альтернативная гипотеза): То, что вы пытаетесь доказать.
Тестовая статистика: число, рассчитанное на основе данных, которое показывает, насколько далеки данные от H₀.
p-значение: вероятность наблюдения результата, по крайней мере, такого экстремального, если бы H₀ было правдой.

Объяснение значения p

Значение p, равное 0,03, означает: «Если бы эффекта действительно не было, мы бы случайно увидели такие экстремальные данные только в 3% случаев». Обычно это считается достаточно значительным, чтобы отвергнуть H₀.

Что p < 0,05 НЕ означает:

Это не означает, что вероятность того, что эффект реален, составляет 95%.
Это не значит, что эффект практически важен
Это не значит, что H₀ ложно

Ошибки типа I и типа II:

	H₀ правда	H₀ неверно
Отклонить H₀	Ошибка I рода (ложноположительный результат)	Правильный
Не удалось отклонить H₀	Правильный	Ошибка II рода (ложноотрицательный результат)

α (уровень значимости) = коэффициент ошибок типа I, обычно 0,05. β = частота ошибок типа II; Мощность = 1 − β, обычно нацелена на 0,80.

t-тест

T-тест сравнивает средние значения между группами. Двухвыборочная t-статистика:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Большой |t| означает, что группы находятся далеко друг от друга относительно внутригрупповой изменчивости. Сравните с критическим значением (или вычислите значение p) с соответствующими степенями свободы.

Когда использовать: Сравнение двух средних из независимых групп, когда данные примерно нормальные или n > 30.

Корреляция

R Пирсона измеряет силу линейной связи между двумя переменными:

r = +1: идеальная положительная линейная зависимость.
r = 0: нет линейной зависимости
r = −1: идеальная отрицательная линейная зависимость

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r в квадрате) показывает долю дисперсии Y, объясняемую X. Если r = 0,7, то R² = 0,49 — X объясняет 49% изменчивости Y.

ρ (rho) Спирмена делает то же самое, но использует ранги, а не необработанные значения, что делает его устойчивым к выбросам и подходящим для порядковых данных.

Помните: Корреляция ≠ причинно-следственная связь. Продажи мороженого и уровень утопления тесно взаимосвязаны (максимум приходится на лето), но мороженое не приводит к утоплению.

Размер эффекта

Статистическая значимость говорит вам, реален ли эффект; размер эффекта показывает, насколько он велик. Коэна d для сравнения двух средств:

d = (μ₁ - μ₂) / σ_pooled

Коэн д	Интерпретация
0.2	Маленький
0.5	Середина
0.8	Большой

Высоко значимое значение p при d = 0,1 означает, что вы обнаружили реальный, но тривиально малый эффект — возможно, потому, что ваша выборка была огромной. Всегда сообщайте о величине эффекта вместе со значениями p.

Тест хи-квадрат

Тест хи-квадрат (χ²) спрашивает: «Отличаются ли наблюдаемые значения от того, что мы случайно ожидаем?»

χ² = Σ (Observed - Expected)² / Expected

Используйте его, когда ваши данные категориальны — например, для проверки того, справедлив ли кубик или не зависит ли результат лечения от группы лечения.

Выбор правильного теста

Ситуация	Тест
Сравните одно среднее значение с известным значением	Одновыборочный t-критерий
Сравните два независимых средства	Двухвыборочный t-критерий
Сравните два парных средних	Парный t-критерий
Сравнить 3+ средства	Дисперсионный анализ
Сравните 3+ средних (ненормальные)	Краскал-Уоллис
Ассоциация между двумя непрерывными переменными	Корреляция Пирсона/Спирмена
Сравните категориальные пропорции	Хи-квадрат
Две группы, ненормальное распределение	Манн-Уитни Ю

Распространенные ошибки

Подглядывание. Тест выполняется несколько раз и останавливается, когда p < Значение 0,05 резко увеличивает ошибку типа I. Прежде чем собирать данные, спланируйте размер выборки.

Множественные сравнения. Проведение 20 независимых тестов при α = 0,05 в среднем приведет к одному ложноположительному результату. Используйте поправку Бонферрони или контролируйте уровень ложных открытий.

Игнорируя предположения. Большинство тестов предполагают случайную выборку, независимость наблюдений и (для t-тестов) приблизительную нормальность. Нарушение этих правил ухудшает результаты.

Используйте наш Калькулятор Z-показателя, Калькулятор размера выборки, Калькулятор t-теста и Калькулятор корреляции для работы с собственными данными.