नवशिक्यांसाठी सांख्यिकी: मीन, एसडी, हायपोथिसिस चाचण्या आणि बरेच काही

सांख्यिकी ही अनिश्चिततेची भाषा आहे — एक साधन जे आपल्याला अपूर्ण माहितीवरून निष्कर्ष काढू देते. तुम्ही बातम्यांचे सर्वेक्षण वाचत असाल, क्लिनिकल चाचणीच्या निकालाचा अर्थ लावत असाल किंवा तुमच्या स्वतःच्या डेटाचे विश्लेषण करत असाल, या मूळ संकल्पना समजून घेणे तुम्हाला अधिक गंभीर वाचक बनवेल.

वर्णनात्मक आकडेवारी: डेटा सारांशित करणे

आपण डेटाचे विश्लेषण करण्यापूर्वी, आपल्याला त्याचे वर्णन करणे आवश्यक आहे. केंद्रीय प्रवृत्ती (मध्यम कुठे आहे?) आणि स्प्रेड (डेटा किती व्हेरिएबल आहे?) हे महत्त्वाचे उपाय आहेत.

मीन, माध्य आणि मोड

अंकगणितीय सरासरी ही मोजणीने भागलेली बेरीज आहे. ही सर्वात परिचित सरासरी आहे परंतु आउटलायर्ससाठी अत्यंत संवेदनशील आहे.

जेव्हा डेटा क्रमवारी लावला जातो तेव्हा मध्यम हे मध्यम मूल्य असते. ते अधिक मजबूत आहे - एकल अत्यंत मूल्य ते जास्त हलवत नाही.

मोड हे सर्वात वारंवार येणारे मूल्य आहे. स्पष्ट डेटासाठी उपयुक्त; सतत मोजमापांसाठी कमी उपयुक्त.

डेटासेट	मीन	मध्यक	मोड
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

लक्षात घ्या की एक अत्यंत मूल्य (100) सरासरी नाटकीयरित्या कसे बदलते परंतु मध्यक अस्पर्शित ठेवते. म्हणूनच घराच्या किमतीची आकडेवारी मध्यवर्ती वापरते — मूठभर बहु-दशलक्ष-पाउंड वाड्यांमुळे सरासरी किमती दिशाभूल करतात.

मानक विचलन आणि भिन्नता

भिन्नता मध्यापासून सरासरी वर्ग विचलन मोजते:

σ² = Σ(xi - x̄)² / n

मानक विचलन हे भिन्नतेचे वर्गमूळ आहे — ते मूळ डेटाच्या समान युनिट्समध्ये आहे, ज्यामुळे ते स्पष्ट होते:

σ = √[Σ(xi - x̄)² / n]

सामान्यपणे वितरित डेटासाठी 68-95-99.7 नियम:

68% मूल्ये सरासरीच्या 1 मानक विचलनात येतात
2 मानक विचलनांमध्ये 95%
3 मानक विचलनांमध्ये 99.7%

टीप: लोकसंख्या मानक विचलनासाठी भाजकामध्ये n वापरा; नमुन्याच्या अंदाजासाठी n−1 वापरा (याला बेसलचे दुरुस्त असे म्हणतात आणि नमुन्यांसोबत होणाऱ्या किंचित कमी अंदाजासाठी दुरुस्त करते).

सामान्य वितरण

सामान्य (गॉसियन) वितरण हे बेल-आकाराचे वक्र आहे जे निसर्ग आणि आकडेवारीमध्ये सर्वत्र दिसते. हे दोन पॅरामीटर्सद्वारे पूर्णपणे वर्णन केले आहे: सरासरी (μ) आणि मानक विचलन (σ).

z-स्कोअर कोणत्याही मूल्याचे रूपांतर "मीन पासून किती मानक विचलन" मध्ये करते:

z = (x - μ) / σ

1.96 चा z-स्कोअर 97.5 व्या पर्सेंटाइलशी संबंधित आहे — ज्याच्या वरचे मूल्य फक्त 2.5% वितरण आहे. आत्मविश्वासाच्या अंतरामुळे हे सतत आकडेवारीत दिसून येते.

केंद्रीय मर्यादा प्रमेय हे सामान्य वितरण इतके महत्त्वाचे का आहे: मूळ लोकसंख्येच्या आकाराकडे दुर्लक्ष करून, नमुन्याचे वितरण म्हणजे नमुन्याचा आकार जसजसा वाढत जातो तसतसे सामान्यतेकडे जाते. म्हणूनच कच्चा डेटा सामान्यपणे वितरित केला जात नसतानाही अनेक सांख्यिकीय चाचण्या सामान्यता गृहीत धरतात.

आत्मविश्वास मध्यांतर

95% आत्मविश्वास मध्यांतराचा अर्थ असा नाही की "या श्रेणीमध्ये खरे मूल्य असण्याची 95% संभाव्यता आहे." याचा अर्थ: "आम्ही या सॅम्पलिंग प्रक्रियेची पुष्कळ वेळा पुनरावृत्ती केल्यास, आम्ही गणना केलेल्या 95% मध्यांतरांमध्ये खरे मूल्य असेल."

आकार n च्या नमुन्यातून p च्या प्रमाणात:

CI = p ± z × √(p(1-p)/n)

95% आत्मविश्वासासाठी, z = 1.96. 99% साठी, z = 2.576.

एररचे मार्जिन हा फक्त ± भाग आहे: z × √(p(1-p)/n). जेव्हा सर्वेक्षण "±3 टक्के गुण" नोंदवते तेव्हा हे त्रुटीचे मार्जिन असते.

गृहीतक चाचणी

प्रत्येक गृहीतक चाचणी समान संरचनेचे अनुसरण करते:

H₀ (शून्य गृहितक): डीफॉल्ट — सामान्यतः "कोणताही परिणाम नाही," "कोणताही फरक नाही," "संबंध नाही"
H₁ (पर्यायी गृहीतक): तुम्ही कशासाठी पुरावा दाखवण्याचा प्रयत्न करत आहात
चाचणी आकडेवारी: डेटावरून मोजलेली संख्या जी H₀ पासून डेटा किती दूर आहे हे मोजते
p-value: H₀ सत्य असल्यास किमान या टोकाचा परिणाम पाहण्याची संभाव्यता

p-मूल्य स्पष्ट केले

0.03 च्या p-मूल्याचा अर्थ असा होतो: "जर खरोखर कोणताही परिणाम झाला नसता, तर आम्हाला डेटा केवळ 3% वेळा योगायोगाने दिसेल." हे सहसा H₀ नाकारण्यासाठी पुरेसे महत्त्वपूर्ण मानले जाते.

काय p < 0.05 चा अर्थ असा नाही:

याचा अर्थ असा नाही की परिणाम वास्तविक असण्याची 95% शक्यता आहे
याचा अर्थ असा नाही की प्रभाव व्यावहारिकदृष्ट्या महत्त्वपूर्ण आहे
याचा अर्थ H₀ खोटे आहे असे नाही

प्रकार I आणि प्रकार II त्रुटी:

	H₀ खरे आहे	H₀ खोटे आहे
H₀ नाकारा	टाइप I त्रुटी (खोटे सकारात्मक)	बरोबर
H₀ नाकारण्यात अयशस्वी	बरोबर	प्रकार II त्रुटी (खोटे नकारात्मक)

α (महत्त्व पातळी) = टाइप I त्रुटी दर, सामान्यतः 0.05 β = प्रकार II त्रुटी दर; पॉवर = 1 − β, सहसा 0.80 वर लक्ष्य केले जाते

टी-टेस्ट

टी-चाचणी गटांमधील साधनांची तुलना करते. दोन-नमुना टी-सांख्यिकी आहे:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

एक मोठा |t| म्हणजे गटांतर्गत परिवर्तनशीलतेच्या तुलनेत गट खूप वेगळे आहेत. स्वातंत्र्याच्या योग्य अंशांसह गंभीर मूल्याशी तुलना करा (किंवा p-मूल्याची गणना करा).

ते कधी वापरायचे: स्वतंत्र गटांमधील दोन माध्यमांची तुलना करणे, जेव्हा डेटा साधारणपणे सामान्य असतो किंवा n > 30.

सहसंबंध

Pearson's r दोन चलांमधील रेखीय संबंधांची ताकद मोजतो:

r = +1: परिपूर्ण सकारात्मक रेखीय संबंध
r = 0: रेखीय संबंध नाही
r = −1: परिपूर्ण ऋण रेखीय संबंध

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r वर्ग) तुम्हाला X द्वारे स्पष्ट केलेल्या Y मधील भिन्नतेचे प्रमाण सांगतो. जर r = 0.7 असेल, तर R² = 0.49 — X Y मधील परिवर्तनशीलतेच्या 49% स्पष्ट करतो.

स्पियरमॅनचे ρ (rho) तेच करते परंतु कच्च्या मूल्यांऐवजी रँक वापरते, ते आउटलियर्ससाठी मजबूत आणि सामान्य डेटासाठी योग्य बनवते.

लक्षात ठेवा: सहसंबंध ≠ कारण. आइस्क्रीमची विक्री आणि बुडण्याचे दर यांचा दृढ संबंध आहे (दोन्ही उन्हाळ्यात कमाल आहे), परंतु आइस्क्रीममुळे बुडत नाही.

प्रभाव आकार

सांख्यिकीय महत्त्व तुम्हाला सांगते की प्रभाव वास्तविक आहे की नाही; प्रभाव आकार तुम्हाला सांगते की ते किती मोठे आहे. दोन साधनांची तुलना करण्यासाठी कोहेनचे डी.

d = (μ₁ - μ₂) / σ_pooled

कोहेनचे डी	व्याख्या
0.2	लहान
0.5	मध्यम
0.8	मोठा

d = 0.1 सह अत्यंत महत्त्वपूर्ण p-मूल्याचा अर्थ असा आहे की तुम्हाला एक वास्तविक परंतु क्षुल्लक परिणाम आढळला आहे — शक्यतो तुमचा नमुना प्रचंड असल्यामुळे. नेहमी p-मूल्यांच्या बाजूने प्रभाव आकार नोंदवा.

ची-स्क्वेअर चाचणी

ची-स्क्वेअर (χ²) चाचणी विचारते: "निरीक्षण केलेली संख्या आपण योगायोगाने अपेक्षित असलेल्यापेक्षा भिन्न आहे का?"

χ² = Σ (Observed - Expected)² / Expected

जेव्हा तुमचा डेटा स्पष्ट असेल तेव्हा त्याचा वापर करा — उदाहरणार्थ, मृत्यू योग्य आहे की नाही किंवा उपचाराचा परिणाम उपचार गटापेक्षा स्वतंत्र आहे की नाही हे तपासणे.

योग्य चाचणी निवडणे

परिस्थिती	चाचणी
एका अर्थाची तुलना ज्ञात मूल्याशी करा	एक-नमुना टी-चाचणी
दोन स्वतंत्र साधनांची तुलना करा	दोन-नमुना टी-चाचणी
दोन जोडलेल्या साधनांची तुलना करा	पेअर टी-टेस्ट
3+ म्हणजे तुलना करा	ANOVA
3+ म्हणजे (गैर-सामान्य) तुलना करा	क्रुस्कल-वॉलिस
दोन सतत चलांमधील संबंध	पिअर्सन/स्पियरमॅन सहसंबंध
स्पष्ट प्रमाणांची तुलना करा	चि-चौरस
दोन गट, गैर-सामान्य वितरण	मान-व्हिटनी यू

सामान्य चुका

पीकिंग: तुमची चाचणी वारंवार चालवणे आणि p < 0.05 टाइप I त्रुटी नाटकीयरित्या वाढवते. डेटा गोळा करण्यापूर्वी तुमच्या नमुना आकाराची योजना करा.

एकाधिक तुलना: α = 0.05 वर 20 स्वतंत्र चाचण्या चालवल्यास सरासरी एक चुकीचा सकारात्मक परिणाम होईल. बोनफेरोनी सुधारणा वापरा किंवा खोटे शोध दर नियंत्रित करा.

कल्पनेकडे दुर्लक्ष करणे: बहुतेक चाचण्या यादृच्छिक नमुने, निरीक्षणांचे स्वातंत्र्य आणि (टी-चाचण्यांसाठी) अंदाजे सामान्यता गृहीत धरतात. याचे उल्लंघन केल्याने परिणाम कमी होतात.

आमचे Z-स्कोअर कॅल्क्युलेटर, नमुना आकार कॅल्क्युलेटर, t-Test Calculator, आणि Correlation Calculator वापरा डेटा