Yeni Başlayanlar İçin İstatistik: Ortalama, SD, Hipotez Testleri ve Daha Fazlası

İstatistik belirsizliğin dilidir; eksik bilgilerden sonuç çıkarmamızı sağlayan araçtır. İster bir haber anketi okuyor olun, ister bir klinik deney sonucunu yorumluyor olun, ister kendi verilerinizi analiz ediyor olun, bu temel kavramları anlamak sizi çok daha eleştirel bir okuyucu yapacaktır.

Tanımlayıcı İstatistikler: Verileri Özetleme

Verileri analiz etmeden önce onu tanımlamanız gerekir. Temel ölçümler merkezi eğilim (ortası nerede?) ve yayılım (veriler ne kadar değişken?)'dir.

Ortalama, Medyan ve Mod

Aritmetik ortalama toplamın sayıya bölünmesiyle elde edilir. Bu en tanıdık ortalamadır ancak aykırı değerlere karşı oldukça hassastır.

medyan, veriler sıralandığında ortadaki değerdir. Daha sağlamdır; tek bir uç değer onu fazla hareket ettirmez.

mod en sık kullanılan değerdir. Kategorik veriler için kullanışlıdır; sürekli ölçümler için daha az kullanışlıdır.

Veri kümesi	Anlam	Medyan	Mod
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

Bir uç değerin (100) ortalamayı nasıl önemli ölçüde değiştirdiğine ancak medyana dokunmadan kaldığına dikkat edin. Ev fiyat istatistiklerinin medyanı kullanmasının nedeni budur; bir avuç multi-milyon sterlinlik malikane, ortalama fiyatları yanıltıcı hale getirebilir.

Standart Sapma ve Varyans

Varyans, ortalamadan ortalama karesel sapmayı ölçer:

σ² = Σ(xi - x̄)² / n

Standart sapma, varyansın kareköküdür; orijinal verilerle aynı birimlerde olduğundan yorumlanabilir hale gelir:

σ = √[Σ(xi - x̄)² / n]

Normal dağılan veriler için 68-95-99,7 kuralı:

Değerlerin %68'i ortalamanın 1 standart sapması dahilindedir
2 standart sapma dahilinde %95
3 standart sapma dahilinde %99,7

Not: Popülasyon standart sapması için paydada n'yi kullanın; örnek tahmini için n−1 kullanın (buna Bessel düzeltmesi denir ve örneklerde meydana gelen hafif eksik tahminleri düzeltir).

Normal Dağılım

Normal (Gauss) dağılım, doğada ve istatistikte her yerde görülen çan şeklindeki eğridir. Tamamen iki parametreyle tanımlanır: ortalama (μ) ve standart sapma (σ).

z-puanı herhangi bir değeri "ortalamadan kaç standart sapmaya" dönüştürür:

z = (x - μ) / σ

1,96'lık bir z-puanı 97,5'inci yüzdeliğe karşılık gelir; bu değerin üzerinde dağılımın yalnızca %2,5'i yer alır. Bu, güven aralıkları nedeniyle istatistiklerde sürekli karşımıza çıkıyor.

Merkezi Limit Teoremi, normal dağılımın bu kadar önemli olmasının nedenidir: orijinal popülasyonun şekli ne olursa olsun, numune ortalamalarının dağılımı, numune boyutu arttıkça normalliğe yaklaşır. Bu nedenle pek çok istatistiksel test, ham veriler normal şekilde dağılmasa bile normallik varsayar.

Güven Aralıkları

%95'lik bir güven aralığı, "gerçek değerin bu aralıkta olma ihtimalinin %95 olduğu" anlamına gelmez. Bunun anlamı şu: "Eğer bu örnekleme işlemini birçok kez tekrarlasaydık, hesapladığımız aralıkların %95'i gerçek değeri içerecekti."

N boyutunda bir numuneden p oranı için:

CI = p ± z × √(p(1-p)/n)

%95 güven için z = 1,96. %99 için z = 2,576.

Hata payı sadece ± kısmıdır: z × √(p(1-p)/n). Bir anket "±3 yüzde puan" rapor ettiğinde, bu hata payıdır.

Hipotez Testi

Her hipotez testi aynı yapıyı takip eder:

H₀ (sıfır hipotezi): Varsayılan — genellikle "etki yok", "fark yok", "ilişki yok"
H₁ (alternatif hipotez): Kanıt göstermeye çalıştığınız şey
Test istatistiği: Verinin H₀'den ne kadar uzakta olduğunu ölçen verilerden hesaplanan bir sayı
p-değeri: H₀ doğruysa en azından bu uç noktadaki bir sonucu gözlemleme olasılığı

Açıklanan p değeri

0,03'lük bir p değeri şu anlama gelir: "Gerçekten hiçbir etki olmasaydı, tesadüfen bu kadar uçtaki verileri yalnızca %3 oranında görebilirdik." Bu genellikle H₀'yi reddedecek kadar önemli kabul edilir.

Ne p < 0,05 şu anlama gelmez:

Bu, etkinin gerçek olma ihtimalinin %95 olduğu anlamına gelmez
Bu, etkinin pratikte önemli olduğu anlamına gelmez
Bu H₀'nin yanlış olduğu anlamına gelmez

Tip I ve Tip II Hatalar:

	H₀ doğrudur	H₀ yanlıştır
H₀'yi reddet	Tip I hatası (yanlış pozitif)	Doğru
H₀ reddedilemedi	Doğru	Tip II hata (yanlış negatif)

α (anlamlılık düzeyi) = Tip I hata oranı, genellikle 0,05 β = Tip II hata oranı; Güç = 1 − β, genellikle 0,80'i hedef alır

t-Testi

T testi gruplar arasındaki ortalamaları karşılaştırır. İki örnekli t istatistiği:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Büyük bir |t| grupların grup içi değişkenliğe göre birbirinden uzak olduğu anlamına gelir. Uygun serbestlik dereceleriyle kritik bir değerle karşılaştırın (veya p değerini hesaplayın).

Ne zaman kullanılmalı: Veriler yaklaşık olarak normal veya n >; 30.

Korelasyon

Pearson r iki değişken arasındaki doğrusal ilişkinin gücünü ölçer:

r = +1: Mükemmel pozitif doğrusal ilişki
r = 0: Doğrusal ilişki yok
r = −1: Mükemmel negatif doğrusal ilişki

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r kare), Y'deki varyansın X tarafından açıklanan oranını belirtir. Eğer r = 0,7 ise R² = 0,49 — X, Y'deki değişkenliğin %49'unu açıklar.

Spearman'ın ρ (rho)'su da aynı şeyi yapar ancak ham değerler yerine sıralamaları kullanır, bu da onu aykırı değerlere karşı dayanıklı ve sıralı veriler için uygun hale getirir.

Unutmayın: Korelasyon ≠ nedensellik. Dondurma satışları ve boğulma oranları arasında güçlü bir korelasyon vardır (her ikisi de yaz aylarında zirve yapar), ancak dondurma boğulmaya neden olmaz.

Efekt Boyutu

İstatistiksel önem size bir etkinin gerçek olup olmadığını söyler; etki boyutu size bunun ne kadar büyük olduğunu söyler. İki ortalamayı karşılaştırmak için Cohen'in d'si:

d = (μ₁ - μ₂) / σ_pooled

Cohen'in d'si	Tercüme
0.2	Küçük
0.5	Orta
0.8	Büyük

d = 0,1 ile son derece anlamlı bir p değeri, gerçek ancak önemsiz derecede küçük bir etki tespit ettiğiniz anlamına gelir; bunun nedeni muhtemelen numunenizin çok büyük olmasıdır. Etki büyüklüklerini her zaman p değerlerinin yanında raporlayın.

Ki-Kare Testi

Ki-kare (χ²) testi şu soruyu sorar: "Gözlemlenen sayılar tesadüfen beklediğimizden farklı mı?"

χ² = Σ (Observed - Expected)² / Expected

Verileriniz kategorik olduğunda (örneğin, bir zarın adil olup olmadığını veya tedavi sonucunun tedavi grubundan bağımsız olup olmadığını test ederken) bunu kullanın.

Doğru Testi Seçmek

Durum	Test
Bir ortalamayı bilinen bir değerle karşılaştırın	Tek örnek t testi
İki bağımsız aracı karşılaştırın	İki örnekli t testi
İki eşleştirilmiş ortalamayı karşılaştırın	Eşleştirilmiş t testi
3'ten fazla aracı karşılaştırın	ANOVA
3'ten fazla ortalamayı karşılaştırın (normal olmayan)	Kruskal-Wallis
İki sürekli değişken arasındaki ilişki	Pearson/Spearman korelasyonu
Kategorik oranları karşılaştırın	Ki-kare
İki grup, normal olmayan dağılım	Mann-Whitney U

Yaygın Hatalar

Gözetleme: Testinizi tekrar tekrar çalıştırma ve p < 0,05, Tip I hatasını önemli ölçüde artırır. Veri toplamadan önce örneklem büyüklüğünü planlayın.

Çoklu karşılaştırmalar: α = 0,05 değerinde 20 bağımsız testin çalıştırılması ortalama olarak bir yanlış pozitif üretecektir. Bonferroni düzeltmesini kullanın veya yanlış keşif oranını kontrol edin.

Varsayımları göz ardı etmek: Çoğu test rastgele örneklemeyi, gözlemlerden bağımsızlığı ve (t testleri için) yaklaşık normalliği varsayar. Bunların ihlal edilmesi sonuçlara zarar verir.

Kendi verileriniz üzerinde çalışmak için Z-Skor Hesaplayıcımızı, Örnek Boyutu Hesaplayıcımızı, t-Test Hesaplayıcımızı ve Korelasyon Hesaplayıcımızı kullanın.