Статистика за начинаещи: средна стойност, SD, тестове за хипотези и други

Статистиката е езикът на несигурността - инструментът, който ни позволява да правим заключения от непълна информация. Независимо дали четете новинарска анкета, интерпретирате резултат от клинично изпитване или анализирате собствените си данни, разбирането на тези основни концепции ще ви направи много по-критичен читател.

Описателна статистика: Обобщаване на данни

Преди да можете да анализирате данните, трябва да ги опишете. Ключовите мерки са централна тенденция (къде е средата?) и разпространение (колко променливи са данните?).

Средна стойност, медиана и режим

Средноаритметичното е сумата, разделена на броя. Това е най-познатата средна стойност, но е силно чувствителна към отклонения.

Медианата е средната стойност, когато данните се сортират. Той е по-здрав - една екстремна стойност не го движи много.

Режимът е най-честата стойност. Полезно за категорични данни; по-малко полезни за непрекъснати измервания.

Набор от данни	Средно	Медиана	Режим
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

Забележете как една крайна стойност (100) променя драстично средната стойност, но оставя медианата недокосната. Ето защо статистиката за цените на жилищата използва медианата - шепа имения за няколко милиона паунда биха направили средните цени подвеждащи.

Стандартно отклонение и дисперсия

Дисперсията измерва средното квадратно отклонение от средната стойност:

σ² = Σ(xi - x̄)² / n

Стандартното отклонение е корен квадратен от дисперсията — то е в същите единици като оригиналните данни, което го прави интерпретируем:

σ = √[Σ(xi - x̄)² / n]

Правилото 68-95-99.7 за нормално разпределени данни:

68% от стойностите попадат в рамките на 1 стандартно отклонение от средната стойност
95% в рамките на 2 стандартни отклонения
99,7% в рамките на 3 стандартни отклонения

Забележка: Използвайте n в знаменателя за стандартното отклонение на популацията; използвайте n−1 за извадкова оценка (това се нарича корекция на Бесел и коригира лекото подценяване, което се случва с извадките).

Нормалното разпределение

Нормалното (гаусово) разпределение е камбанообразната крива, която се появява навсякъде в природата и статистиката. Описва се напълно от два параметъра: средно (μ) и стандартно отклонение (σ).

z-резултатът преобразува всяка стойност в „колко стандартни отклонения от средната стойност“:

z = (x - μ) / σ

Z-резултат от 1,96 съответства на 97,5-ия персентил — стойността, над която се намират само 2,5% от разпределението. Това се появява постоянно в статистиката поради доверителните интервали.

Теоремата за централната граница е причината нормалното разпределение да има толкова голямо значение: независимо от формата на първоначалната съвкупност, разпределението на средните стойности на извадката се доближава до нормалността с увеличаване на размера на извадката. Ето защо толкова много статистически тестове предполагат нормалност, дори когато необработените данни не са нормално разпределени.

Доверителни интервали

95% доверителен интервал не означава, че „има 95% вероятност истинската стойност да е в този диапазон“. Това означава: "ако повторим този процес на вземане на проби много пъти, 95% от изчислените от нас интервали ще съдържат истинската стойност."

За пропорция p от проба с размер n:

CI = p ± z × √(p(1-p)/n)

За 95% увереност, z = 1,96. За 99%, z = 2,576.

Грешката е само частта ±: z × √(p(1-p)/n). Когато анкета отчете „±3 процентни пункта“, това е границата на грешка.

Тестване на хипотези

Всеки тест на хипотеза следва същата структура:

H₀ (нулева хипотеза): По подразбиране — обикновено „няма ефект“, „няма разлика“, „няма връзка“
H₁ (алтернативна хипотеза): Това, за което се опитвате да представите доказателства
Тестова статистика: Число, изчислено от данните, което измерва колко далеч от H₀ са данните
p-стойност: Вероятността да се наблюдава резултат, който е поне този екстремен, ако H₀ беше вярно

Обяснение на p-стойността

P-стойност от 0,03 означава: „Ако наистина нямаше ефект, щяхме да видим данни толкова големи случайно само в 3% от времето.“ Това обикновено се счита за достатъчно значимо, за да се отхвърли H₀.

Какво p < 0,05 НЕ означава:

Това не означава, че има 95% шанс ефектът да е реален
Това не означава, че ефектът е практически важен
Това не означава, че H₀ е невярно

Грешки тип I и тип II:

	H₀ е вярно	H₀ е невярно
Отхвърляне на H₀	Грешка тип I (фалшиво положително)	Правилно
Неуспешно отхвърляне на H₀	Правилно	Грешка тип II (фалшиво отрицателен)

α (ниво на значимост) = процент грешки от тип I, обикновено 0,05 β = процент грешки от тип II; Мощност = 1 − β, обикновено насочена към 0,80

t-тестът

T-тестът сравнява средните стойности между групите. T-статистиката за две извадки е:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Голям |t| означава, че групите са далеч една от друга спрямо променливостта в рамките на групата. Сравнете с критична стойност (или изчислете p-стойността) с подходящите степени на свобода.

Кога да се използва: Сравняване на две средни стойности от независими групи, когато данните са приблизително нормални или n >gt; 30.

Корелация

R на Pearson измерва силата на линейната връзка между две променливи:

r = +1: Перфектна положителна линейна връзка
r = 0: Няма линейна връзка
r = −1: Перфектна отрицателна линейна зависимост

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r на квадрат) ви казва съотношението на дисперсията в Y, обяснено с X. Ако r = 0,7, тогава R² = 0,49 — X обяснява 49% от променливостта в Y.

**ρ на Spearman ** (rho) прави същото, но използва рангове, а не необработени стойности, което го прави стабилен за извънредни стойности и подходящ за редови данни.

Запомнете: Корелация ≠ причинно-следствена връзка. Продажбите на сладолед и процентите на удавяне са силно свързани (и двете са пикови през лятото), но сладоледът не причинява удавяне.

Размер на ефекта

Статистическата значимост ви казва дали даден ефект е реален; размерът на ефекта ви казва колко е голям. D на Коен за сравняване на две средства:

d = (μ₁ - μ₂) / σ_pooled

Коен d	Тълкуване
0.2	малък
0.5	Среден
0.8	Голям

Силно значима p-стойност с d = 0,1 означава, че сте открили реален, но тривиално малък ефект - вероятно защото вашата извадка е огромна. Винаги отчитайте размерите на ефекта заедно с p-стойностите.

Хи-квадрат тест

Тестът хи-квадрат (χ²) задава въпроса: „Наблюдаваното преброяване различава ли се от това, което бихме очаквали случайно?“

χ² = Σ (Observed - Expected)² / Expected

Използвайте го, когато вашите данни са категорични - например тестване дали зарът е справедлив или дали резултатът от лечението е независим от групата на лечение.

Избор на правилния тест

Ситуация	Тест
Сравнете една средна стойност с известна стойност	t-тест за една проба
Сравнете две независими средства	Двуизвадков t-тест
Сравнете две сдвоени средства	Сдвоен t-тест
Сравнете 3+ средства	ANOVA
Сравнете 3+ означава (ненормално)	Крускал-Уолис
Асоциация между две непрекъснати променливи	Корелация Pearson/Spearman
Сравнете категоричните пропорции	Хи-квадрат
Две групи, ненормално разпределение	Ман-Уитни У

Често срещани грешки

Надничане: Провеждане на вашия тест многократно и спиране, когато p < 0,05 увеличава драматично грешката от тип I. Планирайте размера на извадката, преди да съберете данни.

Множество сравнения: Провеждането на 20 независими теста при α = 0,05 ще даде средно един фалшив положителен резултат. Използвайте корекцията на Bonferroni или контролирайте процента на фалшивите открития.

Пренебрегване на допускания: Повечето тестове предполагат произволно вземане на проби, независимост на наблюденията и (за t-тестове) приблизителна нормалност. Нарушаването им подкопава резултатите.

Използвайте нашия Z-Score Calculator, Sample Size Calculator, t-Test Calculator и Corlelation Calculator, за да работите със собствените си данни.