सांख्यिकी ही अनिश्चिततेची भाषा आहे — एक साधन जे आपल्याला अपूर्ण माहितीवरून निष्कर्ष काढू देते. तुम्ही बातम्यांचे सर्वेक्षण वाचत असाल, क्लिनिकल चाचणीच्या निकालाचा अर्थ लावत असाल किंवा तुमच्या स्वतःच्या डेटाचे विश्लेषण करत असाल, या मूळ संकल्पना समजून घेणे तुम्हाला अधिक गंभीर वाचक बनवेल.
वर्णनात्मक आकडेवारी: डेटा सारांशित करणे
आपण डेटाचे विश्लेषण करण्यापूर्वी, आपल्याला त्याचे वर्णन करणे आवश्यक आहे. केंद्रीय प्रवृत्ती (मध्यम कुठे आहे?) आणि स्प्रेड (डेटा किती व्हेरिएबल आहे?) हे महत्त्वाचे उपाय आहेत.
मीन, माध्य आणि मोड
अंकगणितीय सरासरी ही मोजणीने भागलेली बेरीज आहे. ही सर्वात परिचित सरासरी आहे परंतु आउटलायर्ससाठी अत्यंत संवेदनशील आहे.
जेव्हा डेटा क्रमवारी लावला जातो तेव्हा मध्यम हे मध्यम मूल्य असते. ते अधिक मजबूत आहे - एकल अत्यंत मूल्य ते जास्त हलवत नाही.
मोड हे सर्वात वारंवार येणारे मूल्य आहे. स्पष्ट डेटासाठी उपयुक्त; सतत मोजमापांसाठी कमी उपयुक्त.
| डेटासेट | मीन | मध्यक | मोड |
|---|---|---|---|
| 2, 4, 4, 6, 8 | 4.8 | 4 | 4 |
| 2, 4, 4, 6, 100 | 23.2 | 4 | 4 |
लक्षात घ्या की एक अत्यंत मूल्य (100) सरासरी नाटकीयरित्या कसे बदलते परंतु मध्यक अस्पर्शित ठेवते. म्हणूनच घराच्या किमतीची आकडेवारी मध्यवर्ती वापरते — मूठभर बहु-दशलक्ष-पाउंड वाड्यांमुळे सरासरी किमती दिशाभूल करतात.
मानक विचलन आणि भिन्नता
भिन्नता मध्यापासून सरासरी वर्ग विचलन मोजते:
σ² = Σ(xi - x̄)² / n
मानक विचलन हे भिन्नतेचे वर्गमूळ आहे — ते मूळ डेटाच्या समान युनिट्समध्ये आहे, ज्यामुळे ते स्पष्ट होते:
σ = √[Σ(xi - x̄)² / n]
सामान्यपणे वितरित डेटासाठी 68-95-99.7 नियम:
- 68% मूल्ये सरासरीच्या 1 मानक विचलनात येतात
- 2 मानक विचलनांमध्ये 95%
- 3 मानक विचलनांमध्ये 99.7%
टीप: लोकसंख्या मानक विचलनासाठी भाजकामध्ये n वापरा; नमुन्याच्या अंदाजासाठी n−1 वापरा (याला बेसलचे दुरुस्त असे म्हणतात आणि नमुन्यांसोबत होणाऱ्या किंचित कमी अंदाजासाठी दुरुस्त करते).
सामान्य वितरण
सामान्य (गॉसियन) वितरण हे बेल-आकाराचे वक्र आहे जे निसर्ग आणि आकडेवारीमध्ये सर्वत्र दिसते. हे दोन पॅरामीटर्सद्वारे पूर्णपणे वर्णन केले आहे: सरासरी (μ) आणि मानक विचलन (σ).
z-स्कोअर कोणत्याही मूल्याचे रूपांतर "मीन पासून किती मानक विचलन" मध्ये करते:
z = (x - μ) / σ
1.96 चा z-स्कोअर 97.5 व्या पर्सेंटाइलशी संबंधित आहे — ज्याच्या वरचे मूल्य फक्त 2.5% वितरण आहे. आत्मविश्वासाच्या अंतरामुळे हे सतत आकडेवारीत दिसून येते.
केंद्रीय मर्यादा प्रमेय हे सामान्य वितरण इतके महत्त्वाचे का आहे: मूळ लोकसंख्येच्या आकाराकडे दुर्लक्ष करून, नमुन्याचे वितरण म्हणजे नमुन्याचा आकार जसजसा वाढत जातो तसतसे सामान्यतेकडे जाते. म्हणूनच कच्चा डेटा सामान्यपणे वितरित केला जात नसतानाही अनेक सांख्यिकीय चाचण्या सामान्यता गृहीत धरतात.
आत्मविश्वास मध्यांतर
95% आत्मविश्वास मध्यांतराचा अर्थ असा नाही की "या श्रेणीमध्ये खरे मूल्य असण्याची 95% संभाव्यता आहे." याचा अर्थ: "आम्ही या सॅम्पलिंग प्रक्रियेची पुष्कळ वेळा पुनरावृत्ती केल्यास, आम्ही गणना केलेल्या 95% मध्यांतरांमध्ये खरे मूल्य असेल."
आकार n च्या नमुन्यातून p च्या प्रमाणात:
CI = p ± z × √(p(1-p)/n)
95% आत्मविश्वासासाठी, z = 1.96. 99% साठी, z = 2.576.
एररचे मार्जिन हा फक्त ± भाग आहे: z × √(p(1-p)/n). जेव्हा सर्वेक्षण "±3 टक्के गुण" नोंदवते तेव्हा हे त्रुटीचे मार्जिन असते.
गृहीतक चाचणी
प्रत्येक गृहीतक चाचणी समान संरचनेचे अनुसरण करते:
- H₀ (शून्य गृहितक): डीफॉल्ट — सामान्यतः "कोणताही परिणाम नाही," "कोणताही फरक नाही," "संबंध नाही"
- H₁ (पर्यायी गृहीतक): तुम्ही कशासाठी पुरावा दाखवण्याचा प्रयत्न करत आहात
- चाचणी आकडेवारी: डेटावरून मोजलेली संख्या जी H₀ पासून डेटा किती दूर आहे हे मोजते
- p-value: H₀ सत्य असल्यास किमान या टोकाचा परिणाम पाहण्याची संभाव्यता
p-मूल्य स्पष्ट केले
0.03 च्या p-मूल्याचा अर्थ असा होतो: "जर खरोखर कोणताही परिणाम झाला नसता, तर आम्हाला डेटा केवळ 3% वेळा योगायोगाने दिसेल." हे सहसा H₀ नाकारण्यासाठी पुरेसे महत्त्वपूर्ण मानले जाते.
काय p < 0.05 चा अर्थ असा नाही:
- याचा अर्थ असा नाही की परिणाम वास्तविक असण्याची 95% शक्यता आहे
- याचा अर्थ असा नाही की प्रभाव व्यावहारिकदृष्ट्या महत्त्वपूर्ण आहे
- याचा अर्थ H₀ खोटे आहे असे नाही
प्रकार I आणि प्रकार II त्रुटी:
| H₀ खरे आहे | H₀ खोटे आहे | |
|---|---|---|
| H₀ नाकारा | टाइप I त्रुटी (खोटे सकारात्मक) | बरोबर |
| H₀ नाकारण्यात अयशस्वी | बरोबर | प्रकार II त्रुटी (खोटे नकारात्मक) |
α (महत्त्व पातळी) = टाइप I त्रुटी दर, सामान्यतः 0.05 β = प्रकार II त्रुटी दर; पॉवर = 1 − β, सहसा 0.80 वर लक्ष्य केले जाते
टी-टेस्ट
टी-चाचणी गटांमधील साधनांची तुलना करते. दोन-नमुना टी-सांख्यिकी आहे:
t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)
एक मोठा |t| म्हणजे गटांतर्गत परिवर्तनशीलतेच्या तुलनेत गट खूप वेगळे आहेत. स्वातंत्र्याच्या योग्य अंशांसह गंभीर मूल्याशी तुलना करा (किंवा p-मूल्याची गणना करा).
ते कधी वापरायचे: स्वतंत्र गटांमधील दोन माध्यमांची तुलना करणे, जेव्हा डेटा साधारणपणे सामान्य असतो किंवा n > 30.
सहसंबंध
Pearson's r दोन चलांमधील रेखीय संबंधांची ताकद मोजतो:
- r = +1: परिपूर्ण सकारात्मक रेखीय संबंध
- r = 0: रेखीय संबंध नाही
- r = −1: परिपूर्ण ऋण रेखीय संबंध
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]
R² (r वर्ग) तुम्हाला X द्वारे स्पष्ट केलेल्या Y मधील भिन्नतेचे प्रमाण सांगतो. जर r = 0.7 असेल, तर R² = 0.49 — X Y मधील परिवर्तनशीलतेच्या 49% स्पष्ट करतो.
स्पियरमॅनचे ρ (rho) तेच करते परंतु कच्च्या मूल्यांऐवजी रँक वापरते, ते आउटलियर्ससाठी मजबूत आणि सामान्य डेटासाठी योग्य बनवते.
लक्षात ठेवा: सहसंबंध ≠ कारण. आइस्क्रीमची विक्री आणि बुडण्याचे दर यांचा दृढ संबंध आहे (दोन्ही उन्हाळ्यात कमाल आहे), परंतु आइस्क्रीममुळे बुडत नाही.
प्रभाव आकार
सांख्यिकीय महत्त्व तुम्हाला सांगते की प्रभाव वास्तविक आहे की नाही; प्रभाव आकार तुम्हाला सांगते की ते किती मोठे आहे. दोन साधनांची तुलना करण्यासाठी कोहेनचे डी.
d = (μ₁ - μ₂) / σ_pooled
| कोहेनचे डी | व्याख्या |
|---|---|
| 0.2 | लहान |
| 0.5 | मध्यम |
| 0.8 | मोठा |
d = 0.1 सह अत्यंत महत्त्वपूर्ण p-मूल्याचा अर्थ असा आहे की तुम्हाला एक वास्तविक परंतु क्षुल्लक परिणाम आढळला आहे — शक्यतो तुमचा नमुना प्रचंड असल्यामुळे. नेहमी p-मूल्यांच्या बाजूने प्रभाव आकार नोंदवा.
ची-स्क्वेअर चाचणी
ची-स्क्वेअर (χ²) चाचणी विचारते: "निरीक्षण केलेली संख्या आपण योगायोगाने अपेक्षित असलेल्यापेक्षा भिन्न आहे का?"
χ² = Σ (Observed - Expected)² / Expected
जेव्हा तुमचा डेटा स्पष्ट असेल तेव्हा त्याचा वापर करा — उदाहरणार्थ, मृत्यू योग्य आहे की नाही किंवा उपचाराचा परिणाम उपचार गटापेक्षा स्वतंत्र आहे की नाही हे तपासणे.
योग्य चाचणी निवडणे
| परिस्थिती | चाचणी |
|---|---|
| एका अर्थाची तुलना ज्ञात मूल्याशी करा | एक-नमुना टी-चाचणी |
| दोन स्वतंत्र साधनांची तुलना करा | दोन-नमुना टी-चाचणी |
| दोन जोडलेल्या साधनांची तुलना करा | पेअर टी-टेस्ट |
| 3+ म्हणजे तुलना करा | ANOVA |
| 3+ म्हणजे (गैर-सामान्य) तुलना करा | क्रुस्कल-वॉलिस |
| दोन सतत चलांमधील संबंध | पिअर्सन/स्पियरमॅन सहसंबंध |
| स्पष्ट प्रमाणांची तुलना करा | चि-चौरस |
| दोन गट, गैर-सामान्य वितरण | मान-व्हिटनी यू |
सामान्य चुका
पीकिंग: तुमची चाचणी वारंवार चालवणे आणि p < 0.05 टाइप I त्रुटी नाटकीयरित्या वाढवते. डेटा गोळा करण्यापूर्वी तुमच्या नमुना आकाराची योजना करा.
एकाधिक तुलना: α = 0.05 वर 20 स्वतंत्र चाचण्या चालवल्यास सरासरी एक चुकीचा सकारात्मक परिणाम होईल. बोनफेरोनी सुधारणा वापरा किंवा खोटे शोध दर नियंत्रित करा.
कल्पनेकडे दुर्लक्ष करणे: बहुतेक चाचण्या यादृच्छिक नमुने, निरीक्षणांचे स्वातंत्र्य आणि (टी-चाचण्यांसाठी) अंदाजे सामान्यता गृहीत धरतात. याचे उल्लंघन केल्याने परिणाम कमी होतात.
आमचे Z-स्कोअर कॅल्क्युलेटर, नमुना आकार कॅल्क्युलेटर, t-Test Calculator, आणि Correlation Calculator वापरा डेटा