Статистика — це мова невизначеності — інструмент, який дозволяє нам робити висновки з неповної інформації. Незалежно від того, чи читаєте ви опитування в новинах, інтерпретуєте результати клінічного випробування чи аналізуєте власні дані, розуміння цих основних понять зробить вас набагато критичнішим читачем.

Описова статистика: узагальнення даних

Перш ніж аналізувати дані, їх потрібно описати. Ключовими показниками є центральна тенденція (де середина?) і розповсюдження (наскільки мінливі дані?).

Середнє значення, медіана та мода

Середнє арифметичне — це сума, поділена на кількість. Це найвідоміше середнє значення, але воно дуже чутливе до викидів.

Медіана є середнім значенням під час сортування даних. Він надійніший — одне екстремальне значення не сильно його змінює.

Режим є найбільш частим значенням. Корисно для категорійних даних; менш корисний для безперервних вимірювань.

Набір даних Середній Медіана Режим
2, 4, 4, 6, 8 4.8 4 4
2, 4, 4, 6, 100 23.2 4 4

Зверніть увагу, як одне екстремальне значення (100) різко змінює середнє значення, але залишає медіану недоторканою. Ось чому статистика цін на житло використовує медіану — кілька особняків вартістю багато мільйонів фунтів стерлінгів зроблять середні ціни оманливими.

Стандартне відхилення та дисперсія

Дисперсія вимірює середнє квадратне відхилення від середнього:

σ² = Σ(xi - x̄)² / n

Стандартне відхилення — це квадратний корінь із дисперсії — воно вимірюється в тих самих одиницях, що й вихідні дані, що робить його інтерпретованим:

σ = √[Σ(xi - x̄)² / n]

Правило 68-95-99.7 для нормально розподілених даних:

  • 68% значень знаходяться в межах 1 стандартного відхилення від середнього
  • 95% в межах 2 стандартних відхилень
  • 99,7% в межах 3 стандартних відхилень

Примітка. Використовуйте n у знаменнику для стандартного відхилення сукупності; використовуйте n−1 для оцінки вибірки (це називається поправкою Бесселя і вносить поправку на невелике заниження, яке відбувається з вибірками).

Нормальний розподіл

Нормальний (гаусівський) розподіл — це дзвоноподібна крива, яка з’являється всюди в природі та статистиці. Він повністю описується двома параметрами: середнім (μ) і стандартним відхиленням (σ).

z-показник перетворює будь-яке значення на «кількість стандартних відхилень від середнього»:

z = (x - μ) / σ

Z-оцінка 1,96 відповідає 97,5 процентилю — значенню, вище якого лежить лише 2,5% розподілу. Це постійно відображається в статистиці через довірчі інтервали.

Центральна гранична теорема пояснює, чому нормальний розподіл має таке велике значення: незалежно від форми початкової генеральної сукупності, розподіл середніх вибіркових значень наближається до нормального зі збільшенням розміру вибірки. Ось чому так багато статистичних тестів припускають нормальність, навіть якщо необроблені дані розподіляються нормально.

Довірчі інтервали

95% довірчий інтервал не означає, що «ймовірність того, що справжнє значення знаходиться в цьому діапазоні, становить 95%.» Це означає: «Якби ми повторювали цей процес вибірки багато разів, 95% обчислених інтервалів містили б справжнє значення».

Для частки p із вибірки розміром n:

CI = p ± z × √(p(1-p)/n)

Для 95% впевненості z = 1,96. Для 99% z = 2,576.

Похибка — це лише частина ±: z × √(p(1-p)/n). Коли опитування повідомляє про «±3 відсоткові пункти», це є похибкою.

Перевірка гіпотези

Кожна перевірка гіпотези має однакову структуру:

  1. H₀ (нульова гіпотеза): Типове значення — зазвичай «немає ефекту», «немає різниці», «немає зв’язку»
  2. H₁ (альтернативна гіпотеза): Те, що ви намагаєтеся надати докази
  3. Тестова статистика: Число, обчислене на основі даних, яке вимірює, наскільки далеко від H₀ дані
  4. p-value: Ймовірність спостереження результату принаймні такого екстремального значення, якби H₀ було істинним

Пояснення p-значення

P-значення 0,03 означає: «Якби справді не було ефекту, ми побачили б такі екстремальні дані випадково лише в 3% випадків». Зазвичай це вважається достатньо значним, щоб відхилити H₀.

Що p < 0,05 НЕ означає: – Це не означає, що ймовірність реального ефекту становить 95%. – Це не означає, що ефект практично важливий

  • Це не означає, що H₀ хибний

Помилки типу I та типу II:

H₀ правда H₀ є хибним
Відхилити H₀ Помилка типу I (помилковий результат) Правильно
Не вдалося відхилити H₀ Правильно Помилка типу II (помилково негативний)

α (рівень значущості) = частота помилок типу I, зазвичай 0,05 β = частота помилок типу II; Потужність = 1 − β, зазвичай орієнтована на 0,80

Т-тест

Т-критерій порівнює середні значення між групами. T-статистика двох вибірок:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Великий |t| означає, що групи знаходяться далеко одна від одної відносно мінливості всередині групи. Порівняйте з критичним значенням (або обчисліть p-значення) з відповідними ступенями свободи.

Коли використовувати: Порівняння двох середніх значень із незалежних груп, коли дані приблизно нормальні або n > 30.

Кореляція

R Пірсона вимірює силу лінійного зв’язку між двома змінними:

  • r = +1: Ідеальна позитивна лінійна залежність
  • r = 0: немає лінійного зв'язку
  • r = −1: Ідеальна негативна лінійна залежність
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

(r у квадраті) показує частку дисперсії в Y, пояснену X. Якщо r = 0,7, тоді R² = 0,49 — X пояснює 49% варіабельності в Y.

ρ Спірмена (rho) робить те саме, але використовує ранги, а не необроблені значення, що робить його стійким до викидів і підходить для порядкових даних.

Пам’ятайте: Кореляція ≠ причинно-наслідковий зв’язок. Продажі морозива та рівень утоплення тісно пов’язані (пік обох досягається влітку), але морозиво не викликає утоплення.

Розмір ефекту

Статистична значущість говорить вам, чи є ефект реальним; розмір ефекту вказує, наскільки він великий. D Коена для порівняння двох засобів:

d = (μ₁ - μ₂) / σ_pooled
Коен d Інтерпретація
0.2 Маленький
0.5 Середній
0.8 Великий

Дуже значуще p-значення з d = 0,1 означає, що ви виявили реальний, але тривіально малий ефект — можливо, тому, що ваша вибірка була величезною. Завжди повідомляйте про розміри ефекту разом із p-значеннями.

Тест хі-квадрат

Тест хі-квадрат (χ²) запитує: "Чи відрізняються спостережувані показники від тих, які ми випадково очікували?"

χ² = Σ (Observed - Expected)² / Expected

Використовуйте його, коли ваші дані є категоричними — наприклад, перевіряючи, чи справедливий кубик, чи результат лікування не залежить від групи лікування.

Вибір правильного тесту

Ситуація Тест
Порівняйте одне середнє значення з відомим значенням Одновибірковий t-тест
Порівняйте два незалежні засоби Двовибірковий t-тест
Порівняйте два парних середніх Парний t-тест
Порівняйте 3+ засоби ANOVA
Порівняти 3+ означає (ненормальний) Крускал-Уолліс
Асоціація між двома безперервними змінними Кореляція Пірсона/Спірмена
Порівняйте категоричні пропорції Хі-квадрат
Дві групи, ненормальний розподіл Манн-Вітні У

Поширені помилки

Підгляд: повторюване виконання тесту та зупинка, коли p < 0,05 різко збільшує помилку типу I. Перед збором даних сплануйте розмір вибірки.

Кілька порівнянь: Виконання 20 незалежних тестів при α = 0,05 дасть у середньому один хибнопозитивний результат. Використовуйте поправку Бонферроні або контролюйте частоту помилкових відкриттів.

Ігнорування припущень: Більшість тестів передбачає випадкову вибірку, незалежність спостережень і (для t-тестів) приблизну нормальність. Порушення цього підриває результати.

Використовуйте наш Z-Score Calculator, Sample Size Calculator, t-Test Calculator і Correlation Calculator для обробки власних даних.