గణాంకాలు అనిశ్చితి యొక్క భాష — అసంపూర్ణ సమాచారం నుండి తీర్మానాలు చేయడానికి మమ్మల్ని అనుమతించే సాధనం. మీరు వార్తల పోల్ను చదువుతున్నా, క్లినికల్ ట్రయల్ ఫలితాన్ని వివరించినా లేదా మీ స్వంత డేటాను విశ్లేషించినా, ఈ ప్రధాన భావనలను అర్థం చేసుకోవడం మిమ్మల్ని మరింత క్లిష్టమైన రీడర్గా చేస్తుంది.
వివరణాత్మక గణాంకాలు: డేటాను సంగ్రహించడం
మీరు డేటాను విశ్లేషించడానికి ముందు, మీరు దానిని వివరించాలి. ముఖ్య చర్యలు కేంద్ర ధోరణి (మధ్యం ఎక్కడ ఉంది?) మరియు స్ప్రెడ్ (డేటా ఎంత వేరియబుల్?).
మీన్, మధ్యస్థం మరియు మోడ్
అరిథ్మెటిక్ మీన్ అనేది గణనతో భాగించబడిన మొత్తం. ఇది చాలా సుపరిచితమైన సగటు కానీ బయటి వ్యక్తులకు చాలా సున్నితంగా ఉంటుంది.
మధ్యస్థం అనేది డేటా క్రమబద్ధీకరించబడినప్పుడు మధ్య విలువ. ఇది మరింత దృఢమైనది — ఒక విపరీతమైన విలువ దానిని పెద్దగా తరలించదు.
మోడ్ అత్యంత తరచుగా ఉండే విలువ. వర్గీకరణ డేటా కోసం ఉపయోగకరమైనది; నిరంతర కొలతలకు తక్కువ ఉపయోగకరంగా ఉంటుంది.
| డేటాసెట్ | అర్థం | మధ్యస్థ | మోడ్ |
|---|---|---|---|
| 2, 4, 4, 6, 8 | 4.8 | 4 | 4 |
| 2, 4, 4, 6, 100 | 23.2 | 4 | 4 |
ఒక విపరీతమైన విలువ (100) సగటును నాటకీయంగా ఎలా మారుస్తుందో గమనించండి కానీ మధ్యస్థాన్ని తాకకుండా వదిలివేస్తుంది. అందుకే ఇంటి ధరల గణాంకాలు మధ్యస్థాన్ని ఉపయోగిస్తాయి - కొన్ని బహుళ-మిలియన్-పౌండ్ల భవనాలు సగటు ధరలను తప్పుదారి పట్టించేలా చేస్తాయి.
ప్రామాణిక విచలనం మరియు వైవిధ్యం
వ్యత్యాసం సగటు నుండి సగటు స్క్వేర్డ్ విచలనాన్ని కొలుస్తుంది:
σ² = Σ(xi - x̄)² / n
ప్రామాణిక విచలనం అనేది భేదం యొక్క వర్గమూలం - ఇది అసలైన డేటా వలె అదే యూనిట్లలో ఉంటుంది, ఇది అర్థమయ్యేలా చేస్తుంది:
σ = √[Σ(xi - x̄)² / n]
సాధారణంగా పంపిణీ చేయబడిన డేటా కోసం 68-95-99.7 నియమం:
- 68% విలువలు సగటు యొక్క 1 ప్రామాణిక విచలనం పరిధిలోకి వస్తాయి
- 2 ప్రామాణిక వ్యత్యాసాలలో 95%
- 3 ప్రామాణిక వ్యత్యాసాలలో 99.7%
గమనిక: జనాభా ప్రామాణిక విచలనం కోసం హారంలో n ఉపయోగించండి; నమూనా అంచనా కోసం n−1ని ఉపయోగించండి (దీనిని బెస్సెల్ యొక్క దిద్దుబాటు అని పిలుస్తారు మరియు నమూనాలతో సంభవించే కొంచెం తక్కువ అంచనాను సరిచేస్తుంది).
సాధారణ పంపిణీ
సాధారణ (గాస్సియన్) పంపిణీ అనేది బెల్-ఆకారపు వక్రరేఖ, ఇది ప్రకృతి మరియు గణాంకాలలో ప్రతిచోటా కనిపిస్తుంది. ఇది పూర్తిగా రెండు పారామితుల ద్వారా వివరించబడింది: సగటు (μ) మరియు ప్రామాణిక విచలనం (σ).
z-స్కోర్ ఏదైనా విలువను "సగటు నుండి ఎన్ని ప్రామాణిక విచలనాలు"గా మారుస్తుంది:
z = (x - μ) / σ
1.96 యొక్క z-స్కోరు 97.5వ పర్సంటైల్కు అనుగుణంగా ఉంటుంది - దాని పైన ఉన్న విలువ పంపిణీలో 2.5% మాత్రమే ఉంటుంది. విశ్వాస విరామాల కారణంగా ఇది గణాంకాలలో నిరంతరం కనిపిస్తుంది.
కేంద్ర పరిమితి సిద్ధాంతం ఎందుకు సాధారణ పంపిణీకి చాలా ముఖ్యమైనది: అసలు జనాభా ఆకారంతో సంబంధం లేకుండా, నమూనా పరిమాణం పెరిగే కొద్దీ నమూనా పంపిణీ సాధారణ స్థితికి చేరుకుంటుంది. అందుకే ముడి డేటా సాధారణంగా పంపిణీ చేయబడనప్పుడు కూడా చాలా గణాంక పరీక్షలు సాధారణ స్థితిని పొందుతాయి.
విశ్వాస విరామాలు
95% విశ్వాస విరామం అంటే "ఈ పరిధిలో నిజమైన విలువ 95% సంభావ్యత ఉంది" అని కాదు. దీని అర్థం: "మేము ఈ నమూనా ప్రక్రియను చాలాసార్లు పునరావృతం చేస్తే, మేము లెక్కించిన 95% విరామాలు నిజమైన విలువను కలిగి ఉంటాయి."
పరిమాణం n యొక్క నమూనా నుండి p నిష్పత్తి కోసం:
CI = p ± z × √(p(1-p)/n)
95% విశ్వాసం కోసం, z = 1.96. 99% కోసం, z = 2.576.
మార్జిన్ ఆఫ్ ఎర్రర్ కేవలం ± భాగం: z × √(p(1-p)/n). పోల్ "±3 శాతం పాయింట్లు"ని నివేదించినప్పుడు, ఇది ఎర్రర్ యొక్క మార్జిన్.
పరికల్పన పరీక్ష
ప్రతి పరికల్పన పరీక్ష ఒకే నిర్మాణాన్ని అనుసరిస్తుంది:
- H₀ (శూన్య పరికల్పన): డిఫాల్ట్ — సాధారణంగా "ప్రభావం లేదు," "తేడా లేదు," "సంబంధం లేదు"
- H₁ (ప్రత్యామ్నాయ పరికల్పన): మీరు దేనికి సాక్ష్యాలను చూపించడానికి ప్రయత్నిస్తున్నారు
- పరీక్ష గణాంకాలు: H₀ నుండి డేటా ఎంత దూరంలో ఉందో కొలిచే డేటా నుండి లెక్కించబడిన సంఖ్య
- p-విలువ: H₀ నిజమైతే కనీసం ఈ విపరీతమైన ఫలితాన్ని గమనించే సంభావ్యత
p-విలువ వివరించబడింది
0.03 యొక్క p-విలువ అంటే: "నిజంగా ఎటువంటి ప్రభావం లేకుంటే, మేము డేటాను యాదృచ్ఛికంగా 3% సమయం మాత్రమే చూస్తాము." ఇది సాధారణంగా H₀ని తిరస్కరించేంత ముఖ్యమైనదిగా పరిగణించబడుతుంది.
వాట్ p < 0.05 అంటే కాదు:
- దీని అర్థం 95% ప్రభావం నిజమైనదని అర్థం కాదు
- ప్రభావం ఆచరణాత్మకంగా ముఖ్యమైనదని దీని అర్థం కాదు
- దీని అర్థం H₀ తప్పు అని కాదు
టైప్ I మరియు టైప్ II లోపాలు:
| H₀ నిజం | H₀ తప్పు | |
|---|---|---|
| ** H₀**ని తిరస్కరించు | టైప్ I ఎర్రర్ (తప్పుడు పాజిటివ్) | సరైనది |
| ** H₀ని తిరస్కరించడంలో విఫలం | సరైనది | రకం II లోపం (తప్పుడు ప్రతికూలం) |
α (ముఖ్యత స్థాయి) = టైప్ I లోపం రేటు, సాధారణంగా 0.05 β = టైప్ II లోపం రేటు; శక్తి = 1 − β, సాధారణంగా 0.80 వద్ద లక్ష్యంగా ఉంటుంది
టి-టెస్ట్
టి-టెస్ట్ సమూహాల మధ్య మార్గాలను పోల్చింది. రెండు-నమూనా t-గణాంకం:
t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)
ఒక పెద్ద |t| సమూహంలోని వైవిధ్యానికి సంబంధించి సమూహాలు చాలా దూరంగా ఉన్నాయని అర్థం. ఒక క్లిష్టమైన విలువతో సరిపోల్చండి (లేదా p-విలువను గణించండి) తగిన స్థాయి స్వేచ్ఛతో.
దీన్ని ఎప్పుడు ఉపయోగించాలి: స్వతంత్ర సమూహాల నుండి రెండు మార్గాలను సరిపోల్చడం, డేటా సుమారుగా సాధారణమైనప్పుడు లేదా n > 30.
సహసంబంధం
పియర్సన్ యొక్క r రెండు వేరియబుల్స్ మధ్య సరళ సంబంధం యొక్క బలాన్ని కొలుస్తుంది:
- r = +1: ఖచ్చితమైన సానుకూల సరళ సంబంధం
- r = 0: సరళ సంబంధం లేదు
- r = −1: ఖచ్చితమైన ప్రతికూల సరళ సంబంధం
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]
R² (r స్క్వేర్డ్) X ద్వారా వివరించబడిన Yలోని భేదం యొక్క నిష్పత్తిని మీకు తెలియజేస్తుంది. r = 0.7 అయితే, R² = 0.49 — X అనేది Yలోని 49% వైవిధ్యాన్ని వివరిస్తుంది.
స్పియర్మ్యాన్ యొక్క ρ (rho) అదే పని చేస్తుంది కానీ ముడి విలువల కంటే ర్యాంక్లను ఉపయోగిస్తుంది, ఇది అవుట్లయర్లకు బలంగా మరియు ఆర్డినల్ డేటాకు తగినదిగా చేస్తుంది.
గుర్తుంచుకోండి: సహసంబంధం ≠ కారణం. ఐస్ క్రీం అమ్మకాలు మరియు డ్రౌనింగ్ రేట్లు చాలా పరస్పర సంబంధం కలిగి ఉంటాయి (వేసవిలో రెండూ గరిష్ట స్థాయి), కానీ ఐస్ క్రీం మునిగిపోవడానికి కారణం కాదు.
ప్రభావం పరిమాణం
ప్రభావం వాస్తవమైనదా కాదా అని గణాంక ప్రాముఖ్యత మీకు తెలియజేస్తుంది; ప్రభావ పరిమాణం ఇది ఎంత పెద్దదో మీకు తెలియజేస్తుంది. కోహెన్ యొక్క d రెండుని పోల్చడం అంటే:
d = (μ₁ - μ₂) / σ_pooled
| కోహెన్ డి | వివరణ |
|---|---|
| 0.2 | చిన్నది |
| 0.5 | మధ్యస్థం |
| 0.8 | పెద్దది |
d = 0.1తో ఉన్న అత్యంత ముఖ్యమైన p-విలువ అంటే మీరు నిజమైన కానీ అల్పమైన చిన్న ప్రభావాన్ని గుర్తించారని అర్థం — బహుశా మీ నమూనా అపారమైనది కాబట్టి. ఎల్లప్పుడూ p-విలువలతో పాటు ప్రభావ పరిమాణాలను నివేదించండి.
చి-స్క్వేర్ టెస్ట్
చి-స్క్వేర్ (χ²) పరీక్ష ఇలా అడుగుతుంది: "చూసిన గణనలు యాదృచ్ఛికంగా మనం ఆశించే దానికంటే భిన్నంగా ఉన్నాయా?"
χ² = Σ (Observed - Expected)² / Expected
మీ డేటా వర్గీకరించబడినప్పుడు దాన్ని ఉపయోగించండి - ఉదాహరణకు, మరణం న్యాయమైనదేనా లేదా చికిత్స ఫలితం చికిత్స సమూహంతో సంబంధం లేకుండా ఉందా అని పరీక్షించడం.
సరైన పరీక్షను ఎంచుకోవడం
| పరిస్థితి | పరీక్ష |
|---|---|
| ఒక అర్థాన్ని తెలిసిన విలువతో పోల్చండి | ఒక నమూనా t-పరీక్ష |
| రెండు స్వతంత్ర మార్గాలను సరిపోల్చండి | రెండు నమూనా t-పరీక్ష |
| రెండు జత మార్గాలను సరిపోల్చండి | జత చేసిన t-పరీక్ష |
| 3+ అంటే సరిపోల్చండి | ANOVA |
| 3+ మార్గాలను సరిపోల్చండి (సాధారణం కాదు) | క్రుస్కల్-వాలిస్ |
| రెండు నిరంతర వేరియబుల్స్ మధ్య అనుబంధం | పియర్సన్/స్పియర్మ్యాన్ సహసంబంధం |
| వర్గీకరణ నిష్పత్తులను సరిపోల్చండి | చి-చదరపు |
| రెండు సమూహాలు, నాన్-నార్మల్ పంపిణీ | మన్-విట్నీ యు |
సాధారణ తప్పులు
పీకింగ్: మీ పరీక్షను పదేపదే అమలు చేయడం మరియు p < 0.05 టైప్ I లోపాన్ని నాటకీయంగా పెంచుతుంది. డేటాను సేకరించే ముందు మీ నమూనా పరిమాణాన్ని ప్లాన్ చేయండి.
బహుళ పోలికలు: α = 0.05 వద్ద 20 స్వతంత్ర పరీక్షలను అమలు చేయడం సగటున ఒక తప్పుడు పాజిటివ్ను ఉత్పత్తి చేస్తుంది. బోన్ఫెరోని దిద్దుబాటును ఉపయోగించండి లేదా తప్పుడు ఆవిష్కరణ రేటును నియంత్రించండి.
ఊహలను విస్మరించడం: చాలా పరీక్షలు యాదృచ్ఛిక నమూనా, పరిశీలనల స్వతంత్రత మరియు (t-పరీక్షల కోసం) సుమారుగా సాధారణతను కలిగి ఉంటాయి. వీటిని ఉల్లంఘించడం వల్ల ఫలితాలు దెబ్బతింటున్నాయి.
మా Z-స్కోర్ కాలిక్యులేటర్, నమూనా పరిమాణం కాలిక్యులేటర్, t-Test Calculator, మరియు [సహసంబంధమైన కాలిక్యులేటర్ ద్వారా మీ స్వంత పని/గణాంకం ద్వారా) డేటా.