الإحصائيات هي لغة عدم اليقين - وهي الأداة التي تتيح لنا استخلاص النتائج من معلومات غير كاملة. سواء كنت تقرأ استطلاعًا إخباريًا، أو تفسر نتيجة تجربة سريرية، أو تحلل بياناتك الخاصة، فإن فهم هذه المفاهيم الأساسية سيجعلك قارئًا أكثر انتقادًا بكثير.

الإحصائيات الوصفية: تلخيص البيانات

قبل أن تتمكن من تحليل البيانات، تحتاج إلى وصفها. المقاييس الرئيسية هي الاتجاه المركزي (أين الوسط؟) والانتشار (ما مدى تغير البيانات؟).

المتوسط ​​والوسيط والوضع

المتوسط ​​الحسابي هو المجموع مقسومًا على العدد. إنه المتوسط ​​الأكثر شيوعًا ولكنه حساس للغاية للقيم المتطرفة.

الوسيط هو القيمة الوسطى عند فرز البيانات. إنها أكثر قوة - فالقيمة المتطرفة الواحدة لا تحركها كثيرًا.

الوضع هو القيمة الأكثر شيوعًا. مفيدة للبيانات الفئوية. أقل فائدة للقياسات المستمرة.

مجموعة البيانات يقصد متوسط وضع
2, 4, 4, 6, 8 4.8 4 4
2, 4, 4, 6, 100 23.2 4 4

لاحظ كيف أن قيمة متطرفة واحدة (100) تغير المتوسط ​​بشكل كبير ولكنها تترك المتوسط ​​دون تغيير. وهذا هو السبب وراء استخدام إحصاءات أسعار المنازل للمتوسط، حيث أن حفنة من القصور التي تبلغ قيمتها عدة ملايين من الجنيهات الاسترلينية من شأنها أن تجعل متوسط ​​الأسعار مضللاً.

الانحراف المعياري والتباين

يقيس التباين متوسط ​​الانحراف المربع عن المتوسط:

σ² = Σ(xi - x̄)² / n

الانحراف المعياري هو الجذر التربيعي للتباين، وهو موجود في نفس وحدات البيانات الأصلية، مما يجعله قابلاً للتفسير:

σ = √[Σ(xi - x̄)² / n]

قاعدة 68-95-99.7 للبيانات الموزعة بشكل طبيعي:

  • 68% من القيم تقع ضمن انحراف معياري واحد عن المتوسط
  • 95% ضمن انحرافين معياريين
  • 99.7% ضمن 3 انحرافات معيارية

ملاحظة: استخدم n في المقام للانحراف المعياري للسكان؛ استخدم n−1 لتقدير العينة (وهذا ما يسمى تصحيح بيسل ويصحح التقدير البسيط الذي يحدث مع العينات).

التوزيع الطبيعي

التوزيع الطبيعي (الغاوسي) هو منحنى على شكل جرس يظهر في كل مكان في الطبيعة والإحصائيات. يتم وصفه بالكامل بواسطة معلمتين: المتوسط ​​(μ) والانحراف المعياري (σ).

تعمل z-score على تحويل أي قيمة إلى "عدد الانحرافات المعيارية عن المتوسط":

z = (x - μ) / σ

تتوافق الدرجة z التي تبلغ 1.96 مع النسبة المئوية 97.5 - وهي القيمة التي يقع فوقها 2.5% فقط من التوزيع. يظهر هذا باستمرار في الإحصائيات بسبب فترات الثقة.

نظرية الحد المركزي هي سبب أهمية التوزيع الطبيعي: بغض النظر عن شكل المجتمع الأصلي، فإن توزيع متوسطات العينة يقترب من الوضع الطبيعي مع زيادة حجم العينة. ولهذا السبب تفترض العديد من الاختبارات الإحصائية الحالة الطبيعية حتى عندما لا يتم توزيع البيانات الأولية بشكل طبيعي.

فترات الثقة

لا يعني فاصل الثقة 95% أن "هناك احتمال 95% أن تكون القيمة الحقيقية في هذا النطاق." وهذا يعني: "إذا كررنا عملية أخذ العينات هذه عدة مرات، فإن 95% من الفترات التي حسبناها ستحتوي على القيمة الحقيقية."

للحصول على نسبة p من عينة بالحجم n:

CI = p ± z × √(p(1-p)/n)

للحصول على ثقة 95%، z = 1.96. بالنسبة إلى 99%، ض = 2.576.

هامش الخطأ هو مجرد الجزء ±: z × √(p(1-p)/n). عندما يبلغ استطلاع الرأي "±3 نقاط مئوية"، فهذا هو هامش الخطأ.

اختبار الفرضيات

يتبع كل اختبار فرضية نفس البنية:

  1. H₀ (فرضية العدم): الافتراضي — عادةً "لا يوجد تأثير"، "لا يوجد فرق"، "لا توجد علاقة"
  2. H₁ (فرضية بديلة): ما تحاول إظهار الدليل عليه
  3. إحصائية الاختبار: رقم يتم حسابه من البيانات ويقيس مدى بعد البيانات عن H₀
  4. القيمة p: احتمال ملاحظة نتيجة بهذا الحد على الأقل إذا كانت H₀ صحيحة

شرح القيمة الاحتمالية

القيمة p البالغة 0.03 تعني: "إذا لم يكن هناك أي تأثير حقًا، فسنرى بيانات بهذا الحد الأقصى عن طريق الصدفة في 3% فقط من الحالات." يعتبر هذا عادةً مهمًا بدرجة كافية لرفض H₀.

ما ع & lt؛ 0.05 لا يعني:

  • هذا لا يعني أن هناك فرصة بنسبة 95% أن يكون التأثير حقيقيًا
  • وهذا لا يعني أن التأثير مهم من الناحية العملية
  • وهذا لا يعني أن H₀ خطأ

أخطاء النوع الأول والنوع الثاني:

H₀ صحيح H₀ خطأ
رفض H₀ خطأ من النوع الأول (إيجابي كاذب) صحيح
فشل في رفض H₀ صحيح خطأ من النوع الثاني (سلبي كاذب)

α (مستوى الأهمية) = معدل الخطأ من النوع الأول، عادة 0.05 β = معدل الخطأ من النوع الثاني؛ الطاقة = 1 − β، تستهدف عادةً 0.80

اختبار t

يقارن اختبار t الوسائل بين المجموعات. إحصائية t المكونة من عينتين هي:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

كبير |ر| يعني أن المجموعات متباعدة بالنسبة إلى التباين داخل المجموعة. قارنها بقيمة حرجة (أو احسب القيمة p) بدرجات الحرية المناسبة.

متى تستخدم: مقارنة وسيلتين من مجموعات مستقلة، عندما تكون البيانات عادية تقريبًا أو n > 30.

علاقة

** r بيرسون ** يقيس قوة العلاقة الخطية بين متغيرين:

  • r = +1: علاقة خطية إيجابية مثالية
  • r = 0: لا توجد علاقة خطية
  • r = −1: علاقة خطية سلبية كاملة
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

(r تربيع) يخبرك بنسبة التباين في Y موضحة بواسطة X. إذا كانت r = 0.7، فإن R² = 0.49 — X يفسر 49% من التباين في Y.

Spearman's ρ (rho) يفعل نفس الشيء ولكنه يستخدم الرتب بدلاً من القيم الأولية، مما يجعله قويًا للقيم المتطرفة ومناسبًا للبيانات الترتيبية.

تذكر: الارتباط ≠ السببية. هناك علاقة قوية بين مبيعات الآيس كريم ومعدلات الغرق (كلاهما يصل إلى ذروته في الصيف)، لكن الآيس كريم لا يسبب الغرق.

حجم التأثير

تخبرك الأهمية الإحصائية ما إذا كان التأثير حقيقيًا أم لا؛ حجم التأثير يخبرك بمدى حجمه. كوهين د للمقارنة بين وسيلتين:

d = (μ₁ - μ₂) / σ_pooled
كوهين د تفسير
0.2 صغير
0.5 واسطة
0.8 كبير

تعني القيمة الاحتمالية عالية الأهمية التي تبلغ d = 0.1 أنك اكتشفت تأثيرًا حقيقيًا ولكنه صغير إلى حد تافه — ربما لأن عينتك كانت هائلة. قم دائمًا بالإبلاغ عن أحجام التأثير جنبًا إلى جنب مع القيم p.

اختبار مربع كاي

يسأل اختبار مربع كاي (χ²): "هل تختلف الأعداد المرصودة عما كنا نتوقعه بالصدفة؟"

χ² = Σ (Observed - Expected)² / Expected

استخدمها عندما تكون بياناتك قاطعة - على سبيل المثال، اختبار ما إذا كانت حالة النرد عادلة، أو ما إذا كانت نتيجة العلاج مستقلة عن مجموعة العلاج.

اختيار الاختبار المناسب

الموقف امتحان
قارن متوسطًا واحدًا بقيمة معروفة اختبار t لعينة واحدة
قارن بين وسيلتين مستقلتين اختبار t لعينتين
قارن بين وسيلتين مقترنتين اختبار t المقترن
قارن بين 3+ وسيلة أنوفا
قارن بين 3+ وسيلة (غير عادية) كروسكال واليس
العلاقة بين متغيرين مستمرين علاقة بيرسون/سبيرمان
قارن النسب الفئوية مربع تشي
مجموعتان، التوزيع غير الطبيعي مان ويتني يو

##أخطاء شائعة

نظرة خاطفة: تشغيل الاختبار بشكل متكرر والتوقف عند p < 0.05 يضخم الخطأ من النوع الأول بشكل كبير. خطط لحجم عينتك قبل جمع البيانات.

مقارنات متعددة: سيؤدي إجراء 20 اختبارًا مستقلاً عند α = 0.05 إلى ظهور نتيجة إيجابية كاذبة واحدة في المتوسط. استخدم تصحيح Bonferroni أو التحكم في معدل الاكتشاف الخاطئ.

تجاهل الافتراضات: تفترض معظم الاختبارات أخذ عينات عشوائية، واستقلالية الملاحظات، و(بالنسبة لاختبارات t) الحالة الطبيعية التقريبية. وانتهاك هذه الأمور يقوض النتائج.

استخدم Z-Score Calculator، وحاسبة حجم العينة، وحاسبة اختبار t، وحاسبة الارتباط للعمل من خلال بياناتك الخاصة.