ابتدائی افراد کے لیے اعداد و شمار: اوسط، SD، مفروضہ ٹیسٹ، اور مزید

اعداد و شمار غیر یقینی صورتحال کی زبان ہے — وہ ٹول جو ہمیں نامکمل معلومات سے نتائج اخذ کرنے دیتا ہے۔ چاہے آپ نیوز پول پڑھ رہے ہوں، کلینیکل ٹرائل کے نتائج کی تشریح کر رہے ہوں، یا اپنے ڈیٹا کا تجزیہ کر رہے ہوں، ان بنیادی تصورات کو سمجھنا آپ کو ایک بہت زیادہ اہم قاری بنا دے گا۔

وضاحتی اعدادوشمار: ڈیٹا کا خلاصہ

اس سے پہلے کہ آپ ڈیٹا کا تجزیہ کر سکیں، آپ کو اسے بیان کرنے کی ضرورت ہے۔ اہم اقدامات مرکزی رجحان (وسط کہاں ہے؟) اور اسپریڈ (ڈیٹا کتنا متغیر ہے؟) ہیں۔

مطلب، میڈین اور موڈ

ریاضی کا مطلب وہ رقم ہے جسے شمار سے تقسیم کیا جاتا ہے۔ یہ سب سے زیادہ مانوس اوسط ہے لیکن باہر جانے والوں کے لیے انتہائی حساس ہے۔

میڈین درمیانی قدر ہوتی ہے جب ڈیٹا کو ترتیب دیا جاتا ہے۔ یہ زیادہ مضبوط ہے - ایک واحد انتہائی قدر اسے زیادہ منتقل نہیں کرتی ہے۔

موڈ سب سے زیادہ متواتر قدر ہے۔ واضح ڈیٹا کے لیے مفید؛ مسلسل پیمائش کے لیے کم مفید۔

ڈیٹا سیٹ	مطلب	میڈین	موڈ
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

غور کریں کہ کس طرح ایک انتہائی قدر (100) اوسط کو ڈرامائی طور پر تبدیل کرتی ہے لیکن درمیانی کو اچھوت چھوڑ دیتی ہے۔ یہی وجہ ہے کہ مکان کی قیمت کے اعدادوشمار درمیانے درجے کا استعمال کرتے ہیں۔

معیاری انحراف اور تغیر

تغیر وسط سے اوسط مربع انحراف کی پیمائش کرتا ہے:

σ² = Σ(xi - x̄)² / n

معیاری انحراف متغیر کا مربع جڑ ہے — یہ اصل ڈیٹا کی طرح ہی اکائیوں میں ہے، جو اسے قابل تشریح بناتا ہے:

σ = √[Σ(xi - x̄)² / n]

عام طور پر تقسیم شدہ ڈیٹا کے لیے 68-95-99.7 اصول:

68% اقدار اوسط کے 1 معیاری انحراف کے اندر آتی ہیں۔
95% 2 معیاری انحراف کے اندر
99.7% 3 معیاری انحراف کے اندر

نوٹ: آبادی کے معیاری انحراف کے لیے ڈینومینیٹر میں n استعمال کریں۔ نمونے کے تخمینے کے لیے n−1 کا استعمال کریں (اسے بیسل کی اصلاح کہا جاتا ہے اور نمونے کے ساتھ ہونے والے معمولی سے کم تخمینہ کے لیے درست کرتا ہے)۔

عام تقسیم

عام (Gaussian) تقسیم گھنٹی کی شکل کا وکر ہے جو فطرت اور اعداد و شمار میں ہر جگہ ظاہر ہوتا ہے۔ یہ مکمل طور پر دو پیرامیٹرز کے ذریعہ بیان کیا گیا ہے: اوسط (μ) اور معیاری انحراف (σ)۔

z-score کسی بھی قدر کو "وسط سے کتنے معیاری انحراف" میں تبدیل کرتا ہے:

z = (x - μ) / σ

1.96 کا زیڈ سکور 97.5 فیصد کے مساوی ہے — وہ قدر جس کے اوپر صرف 2.5 فیصد تقسیم ہے۔ اعتماد کے وقفوں کی وجہ سے یہ اعدادوشمار میں مسلسل ظاہر ہوتا ہے۔

مرکزی حد کا نظریہ یہی وجہ ہے کہ عام تقسیم بہت زیادہ اہمیت رکھتی ہے: اصل آبادی کی شکل سے قطع نظر، نمونے کی تقسیم کا مطلب ہے کہ نمونے کے سائز میں اضافہ کے ساتھ ہی یہ معمول کے قریب پہنچ جاتا ہے۔ یہی وجہ ہے کہ بہت سارے شماریاتی ٹیسٹ معمول کے مطابق ہوتے ہیں یہاں تک کہ جب خام ڈیٹا عام طور پر تقسیم نہیں کیا جاتا ہے۔

اعتماد کے وقفے

95% اعتماد کے وقفے کا مطلب یہ نہیں ہے کہ "اس حد میں حقیقی قدر کا 95% امکان ہے۔" اس کا مطلب ہے: "اگر ہم نمونے لینے کے اس عمل کو کئی بار دہراتے ہیں، تو ہم نے شمار کیے گئے وقفوں کا 95% حقیقی قدر پر مشتمل ہوگا۔"

سائز n کے نمونے سے تناسب p کے لیے:

CI = p ± z × √(p(1-p)/n)

95% اعتماد کے لیے، z = 1.96۔ 99% کے لیے، z = 2.576۔

غلطی کا مارجن صرف ± حصہ ہے: z × √(p(1-p)/n)۔ جب کوئی پول "±3 فیصد پوائنٹس" کی اطلاع دیتا ہے، تو یہ غلطی کا مارجن ہے۔

مفروضے کی جانچ

ہر مفروضے کا امتحان ایک ہی ساخت کی پیروی کرتا ہے:

H₀ (نال مفروضہ): پہلے سے طے شدہ — عام طور پر "کوئی اثر نہیں،" "کوئی فرق نہیں،" "کوئی تعلق نہیں"
H₁ (متبادل مفروضہ): جس کے لیے آپ ثبوت دکھانے کی کوشش کر رہے ہیں۔
ٹیسٹ کے اعدادوشمار: اعداد و شمار سے شمار کیا گیا ایک عدد جو اندازہ کرتا ہے کہ ڈیٹا H₀ سے کتنا دور ہے
p-value: نتیجہ دیکھنے کا امکان کم از کم اس حد تک اگر H₀ درست ہوتا

p-value کی وضاحت کی گئی۔

0.03 کی p-value کا مطلب ہے: "اگر واقعی کوئی اثر نہ ہوتا، تو ہم اتفاق سے صرف 3% وقت کے اعداد و شمار کو دیکھیں گے۔" یہ عام طور پر H₀ کو مسترد کرنے کے لیے کافی اہم سمجھا جاتا ہے۔

** کیا p < 0.05 کا مطلب یہ نہیں ہے:**

اس کا مطلب یہ نہیں ہے کہ اثر کے حقیقی ہونے کا 95 فیصد امکان ہے۔
اس کا مطلب یہ نہیں ہے کہ اثر عملی طور پر اہم ہے۔
اس کا مطلب یہ نہیں ہے کہ H₀ غلط ہے۔

قسم I اور قسم II کی خرابیاں:

	H₀ سچ ہے۔	H₀ غلط ہے۔
ریجیکٹ H₀	ٹائپ I کی غلطی (غلط مثبت)	درست
H₀ کو مسترد کرنے میں ناکام	درست	قسم II کی خرابی (غلط منفی)

α (اہمیت کی سطح) = ٹائپ I غلطی کی شرح، عام طور پر 0.05 β = قسم II غلطی کی شرح؛ پاور = 1 − β، عام طور پر 0.80 پر نشانہ بنایا جاتا ہے۔

ٹی ٹیسٹ

ٹی ٹیسٹ گروپوں کے درمیان ذرائع کا موازنہ کرتا ہے۔ دو نمونہ ٹی اعدادوشمار ہے:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

ایک بڑا |t| اس کا مطلب ہے کہ گروپ اندرون گروپ تغیرات کے لحاظ سے بہت الگ ہیں۔ آزادی کی مناسب ڈگریوں کے ساتھ ایک اہم قدر (یا p-value کی گنتی) سے موازنہ کریں۔

اس کا استعمال کب کرنا ہے: آزاد گروپوں سے دو ذرائع کا موازنہ کرنا، جب ڈیٹا تقریباً نارمل ہو یا n > 30۔

ارتباط

Pearson's r دو متغیروں کے درمیان لکیری تعلق کی مضبوطی کی پیمائش کرتا ہے:

r = +1: کامل مثبت لکیری رشتہ
r = 0: کوئی لکیری رشتہ نہیں ہے۔
r = −1: کامل منفی لکیری تعلق

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r مربع) آپ کو Y میں تغیر کا تناسب بتاتا ہے جس کی وضاحت X کے ذریعے کی گئی ہے۔ اگر r = 0.7، تو R² = 0.49 — X Y میں تغیر کے 49% کی وضاحت کرتا ہے۔

Spearman's ρ (rho) وہی کام کرتا ہے لیکن خام قدروں کے بجائے صفوں کا استعمال کرتا ہے، جو اسے آؤٹ لیرز کے لیے مضبوط اور عام ڈیٹا کے لیے موزوں بناتا ہے۔

یاد رکھیں: ارتباط ≠ وجہ۔ آئس کریم کی فروخت اور ڈوبنے کی شرح مضبوطی سے منسلک ہیں (گرمیوں میں دونوں کی چوٹی)، لیکن آئس کریم ڈوبنے کا سبب نہیں بنتی۔

اثر کا سائز

شماریاتی اہمیت آپ کو بتاتی ہے کہ آیا اثر حقیقی ہے۔ اثر سائز آپ کو بتاتا ہے کہ یہ کتنا بڑا ہے۔ دو ذرائع کا موازنہ کرنے کے لیے کوہن کی ڈی:

d = (μ₁ - μ₂) / σ_pooled

کوہن کی ڈی	تشریح
0.2	چھوٹا
0.5	درمیانہ
0.8	بڑا

d = 0.1 کے ساتھ ایک انتہائی اہم p-value کا مطلب ہے کہ آپ نے ایک حقیقی لیکن معمولی طور پر چھوٹے اثر کا پتہ لگایا ہے — ممکنہ طور پر اس لیے کہ آپ کا نمونہ بہت زیادہ تھا۔ ہمیشہ p-values کے ساتھ اثر کے سائز کی اطلاع دیں۔

چی اسکوائر ٹیسٹ

chi-square (χ²) ٹیسٹ پوچھتا ہے: "کیا مشاہدہ شدہ شمار اس سے مختلف ہیں جس کی ہم اتفاق سے توقع کرتے ہیں؟"

χ² = Σ (Observed - Expected)² / Expected

اسے استعمال کریں جب آپ کا ڈیٹا واضح ہو — مثال کے طور پر، جانچ کرنا کہ آیا مرنا منصفانہ ہے، یا علاج کا نتیجہ علاج کے گروپ سے آزاد ہے۔

صحیح ٹیسٹ کا انتخاب

صورتحال	ٹیسٹ
ایک مطلب کا کسی معروف قدر سے موازنہ کریں۔	ایک نمونہ ٹی ٹیسٹ
دو آزاد ذرائع کا موازنہ کریں۔	دو نمونہ ٹی ٹیسٹ
دو جوڑے ہوئے ذرائع کا موازنہ کریں۔	پیئرڈ ٹی ٹیسٹ
3+ ذرائع کا موازنہ کریں۔	انووا
3+ ذرائع کا موازنہ کریں (غیر معمولی)	کرسکل والس
دو متواتر متغیرات کے درمیان تعلق	پیئرسن/اسپیئر مین کا باہمی تعلق
واضح تناسب کا موازنہ کریں۔	چی مربع
دو گروہ، غیر معمولی تقسیم	مان-وہٹنی یو

عام غلطیاں

جھانکنا: اپنا ٹیسٹ بار بار چلانا اور جب p < 0.05 قسم I کی غلطی کو ڈرامائی طور پر بڑھاتا ہے۔ ڈیٹا اکٹھا کرنے سے پہلے اپنے نمونے کے سائز کی منصوبہ بندی کریں۔

متعدد موازنہ: α = 0.05 پر 20 آزاد ٹیسٹ چلانے سے اوسطاً ایک غلط مثبت پیدا ہوگا۔ بونفیرونی اصلاح کا استعمال کریں یا غلط دریافت کی شرح کو کنٹرول کریں۔

مفروضوں کو نظر انداز کرنا: زیادہ تر ٹیسٹوں میں بے ترتیب نمونے لینے، مشاہدات کی آزادی، اور (ٹی-ٹیسٹ کے لیے) تقریباً نارملٹی کا اندازہ لگایا جاتا ہے۔ ان کی خلاف ورزی نتائج کو نقصان پہنچاتی ہے۔

ہمارا Z-Score Calculator، Sample Size Calculator، t-Test Calculator، اور Corelation Calculator، اور [Corelation Calculator] ڈیٹا