ప్రారంభకులకు గణాంకాలు: మీన్, SD, పరికల్పన పరీక్షలు మరియు మరిన్ని

గణాంకాలు అనిశ్చితి యొక్క భాష — అసంపూర్ణ సమాచారం నుండి తీర్మానాలు చేయడానికి మమ్మల్ని అనుమతించే సాధనం. మీరు వార్తల పోల్‌ను చదువుతున్నా, క్లినికల్ ట్రయల్ ఫలితాన్ని వివరించినా లేదా మీ స్వంత డేటాను విశ్లేషించినా, ఈ ప్రధాన భావనలను అర్థం చేసుకోవడం మిమ్మల్ని మరింత క్లిష్టమైన రీడర్‌గా చేస్తుంది.

వివరణాత్మక గణాంకాలు: డేటాను సంగ్రహించడం

మీరు డేటాను విశ్లేషించడానికి ముందు, మీరు దానిని వివరించాలి. ముఖ్య చర్యలు కేంద్ర ధోరణి (మధ్యం ఎక్కడ ఉంది?) మరియు స్ప్రెడ్ (డేటా ఎంత వేరియబుల్?).

మీన్, మధ్యస్థం మరియు మోడ్

అరిథ్మెటిక్ మీన్ అనేది గణనతో భాగించబడిన మొత్తం. ఇది చాలా సుపరిచితమైన సగటు కానీ బయటి వ్యక్తులకు చాలా సున్నితంగా ఉంటుంది.

మధ్యస్థం అనేది డేటా క్రమబద్ధీకరించబడినప్పుడు మధ్య విలువ. ఇది మరింత దృఢమైనది — ఒక విపరీతమైన విలువ దానిని పెద్దగా తరలించదు.

మోడ్ అత్యంత తరచుగా ఉండే విలువ. వర్గీకరణ డేటా కోసం ఉపయోగకరమైనది; నిరంతర కొలతలకు తక్కువ ఉపయోగకరంగా ఉంటుంది.

డేటాసెట్	అర్థం	మధ్యస్థ	మోడ్
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

ఒక విపరీతమైన విలువ (100) సగటును నాటకీయంగా ఎలా మారుస్తుందో గమనించండి కానీ మధ్యస్థాన్ని తాకకుండా వదిలివేస్తుంది. అందుకే ఇంటి ధరల గణాంకాలు మధ్యస్థాన్ని ఉపయోగిస్తాయి - కొన్ని బహుళ-మిలియన్-పౌండ్ల భవనాలు సగటు ధరలను తప్పుదారి పట్టించేలా చేస్తాయి.

ప్రామాణిక విచలనం మరియు వైవిధ్యం

వ్యత్యాసం సగటు నుండి సగటు స్క్వేర్డ్ విచలనాన్ని కొలుస్తుంది:

σ² = Σ(xi - x̄)² / n

ప్రామాణిక విచలనం అనేది భేదం యొక్క వర్గమూలం - ఇది అసలైన డేటా వలె అదే యూనిట్‌లలో ఉంటుంది, ఇది అర్థమయ్యేలా చేస్తుంది:

σ = √[Σ(xi - x̄)² / n]

సాధారణంగా పంపిణీ చేయబడిన డేటా కోసం 68-95-99.7 నియమం:

68% విలువలు సగటు యొక్క 1 ప్రామాణిక విచలనం పరిధిలోకి వస్తాయి
2 ప్రామాణిక వ్యత్యాసాలలో 95%
3 ప్రామాణిక వ్యత్యాసాలలో 99.7%

గమనిక: జనాభా ప్రామాణిక విచలనం కోసం హారంలో n ఉపయోగించండి; నమూనా అంచనా కోసం n−1ని ఉపయోగించండి (దీనిని బెస్సెల్ యొక్క దిద్దుబాటు అని పిలుస్తారు మరియు నమూనాలతో సంభవించే కొంచెం తక్కువ అంచనాను సరిచేస్తుంది).

సాధారణ పంపిణీ

సాధారణ (గాస్సియన్) పంపిణీ అనేది బెల్-ఆకారపు వక్రరేఖ, ఇది ప్రకృతి మరియు గణాంకాలలో ప్రతిచోటా కనిపిస్తుంది. ఇది పూర్తిగా రెండు పారామితుల ద్వారా వివరించబడింది: సగటు (μ) మరియు ప్రామాణిక విచలనం (σ).

z-స్కోర్ ఏదైనా విలువను "సగటు నుండి ఎన్ని ప్రామాణిక విచలనాలు"గా మారుస్తుంది:

z = (x - μ) / σ

1.96 యొక్క z-స్కోరు 97.5వ పర్సంటైల్‌కు అనుగుణంగా ఉంటుంది - దాని పైన ఉన్న విలువ పంపిణీలో 2.5% మాత్రమే ఉంటుంది. విశ్వాస విరామాల కారణంగా ఇది గణాంకాలలో నిరంతరం కనిపిస్తుంది.

కేంద్ర పరిమితి సిద్ధాంతం ఎందుకు సాధారణ పంపిణీకి చాలా ముఖ్యమైనది: అసలు జనాభా ఆకారంతో సంబంధం లేకుండా, నమూనా పరిమాణం పెరిగే కొద్దీ నమూనా పంపిణీ సాధారణ స్థితికి చేరుకుంటుంది. అందుకే ముడి డేటా సాధారణంగా పంపిణీ చేయబడనప్పుడు కూడా చాలా గణాంక పరీక్షలు సాధారణ స్థితిని పొందుతాయి.

విశ్వాస విరామాలు

95% విశ్వాస విరామం అంటే "ఈ పరిధిలో నిజమైన విలువ 95% సంభావ్యత ఉంది" అని కాదు. దీని అర్థం: "మేము ఈ నమూనా ప్రక్రియను చాలాసార్లు పునరావృతం చేస్తే, మేము లెక్కించిన 95% విరామాలు నిజమైన విలువను కలిగి ఉంటాయి."

పరిమాణం n యొక్క నమూనా నుండి p నిష్పత్తి కోసం:

CI = p ± z × √(p(1-p)/n)

95% విశ్వాసం కోసం, z = 1.96. 99% కోసం, z = 2.576.

మార్జిన్ ఆఫ్ ఎర్రర్ కేవలం ± భాగం: z × √(p(1-p)/n). పోల్ "±3 శాతం పాయింట్లు"ని నివేదించినప్పుడు, ఇది ఎర్రర్ యొక్క మార్జిన్.

పరికల్పన పరీక్ష

ప్రతి పరికల్పన పరీక్ష ఒకే నిర్మాణాన్ని అనుసరిస్తుంది:

H₀ (శూన్య పరికల్పన): డిఫాల్ట్ — సాధారణంగా "ప్రభావం లేదు," "తేడా లేదు," "సంబంధం లేదు"
H₁ (ప్రత్యామ్నాయ పరికల్పన): మీరు దేనికి సాక్ష్యాలను చూపించడానికి ప్రయత్నిస్తున్నారు
పరీక్ష గణాంకాలు: H₀ నుండి డేటా ఎంత దూరంలో ఉందో కొలిచే డేటా నుండి లెక్కించబడిన సంఖ్య
p-విలువ: H₀ నిజమైతే కనీసం ఈ విపరీతమైన ఫలితాన్ని గమనించే సంభావ్యత

p-విలువ వివరించబడింది

0.03 యొక్క p-విలువ అంటే: "నిజంగా ఎటువంటి ప్రభావం లేకుంటే, మేము డేటాను యాదృచ్ఛికంగా 3% సమయం మాత్రమే చూస్తాము." ఇది సాధారణంగా H₀ని తిరస్కరించేంత ముఖ్యమైనదిగా పరిగణించబడుతుంది.

వాట్ p < 0.05 అంటే కాదు:

దీని అర్థం 95% ప్రభావం నిజమైనదని అర్థం కాదు
ప్రభావం ఆచరణాత్మకంగా ముఖ్యమైనదని దీని అర్థం కాదు
దీని అర్థం H₀ తప్పు అని కాదు

టైప్ I మరియు టైప్ II లోపాలు:

	H₀ నిజం	H₀ తప్పు
H₀ని తిరస్కరించు	టైప్ I ఎర్రర్ (తప్పుడు పాజిటివ్)	సరైనది
** H₀ని తిరస్కరించడంలో విఫలం	సరైనది	రకం II లోపం (తప్పుడు ప్రతికూలం)

α (ముఖ్యత స్థాయి) = టైప్ I లోపం రేటు, సాధారణంగా 0.05 β = టైప్ II లోపం రేటు; శక్తి = 1 − β, సాధారణంగా 0.80 వద్ద లక్ష్యంగా ఉంటుంది

టి-టెస్ట్

టి-టెస్ట్ సమూహాల మధ్య మార్గాలను పోల్చింది. రెండు-నమూనా t-గణాంకం:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

ఒక పెద్ద |t| సమూహంలోని వైవిధ్యానికి సంబంధించి సమూహాలు చాలా దూరంగా ఉన్నాయని అర్థం. ఒక క్లిష్టమైన విలువతో సరిపోల్చండి (లేదా p-విలువను గణించండి) తగిన స్థాయి స్వేచ్ఛతో.

దీన్ని ఎప్పుడు ఉపయోగించాలి: స్వతంత్ర సమూహాల నుండి రెండు మార్గాలను సరిపోల్చడం, డేటా సుమారుగా సాధారణమైనప్పుడు లేదా n > 30.

సహసంబంధం

పియర్సన్ యొక్క r రెండు వేరియబుల్స్ మధ్య సరళ సంబంధం యొక్క బలాన్ని కొలుస్తుంది:

r = +1: ఖచ్చితమైన సానుకూల సరళ సంబంధం
r = 0: సరళ సంబంధం లేదు
r = −1: ఖచ్చితమైన ప్రతికూల సరళ సంబంధం

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r స్క్వేర్డ్) X ద్వారా వివరించబడిన Yలోని భేదం యొక్క నిష్పత్తిని మీకు తెలియజేస్తుంది. r = 0.7 అయితే, R² = 0.49 — X అనేది Yలోని 49% వైవిధ్యాన్ని వివరిస్తుంది.

స్పియర్‌మ్యాన్ యొక్క ρ (rho) అదే పని చేస్తుంది కానీ ముడి విలువల కంటే ర్యాంక్‌లను ఉపయోగిస్తుంది, ఇది అవుట్‌లయర్‌లకు బలంగా మరియు ఆర్డినల్ డేటాకు తగినదిగా చేస్తుంది.

గుర్తుంచుకోండి: సహసంబంధం ≠ కారణం. ఐస్ క్రీం అమ్మకాలు మరియు డ్రౌనింగ్ రేట్లు చాలా పరస్పర సంబంధం కలిగి ఉంటాయి (వేసవిలో రెండూ గరిష్ట స్థాయి), కానీ ఐస్ క్రీం మునిగిపోవడానికి కారణం కాదు.

ప్రభావం పరిమాణం

ప్రభావం వాస్తవమైనదా కాదా అని గణాంక ప్రాముఖ్యత మీకు తెలియజేస్తుంది; ప్రభావ పరిమాణం ఇది ఎంత పెద్దదో మీకు తెలియజేస్తుంది. కోహెన్ యొక్క d రెండుని పోల్చడం అంటే:

d = (μ₁ - μ₂) / σ_pooled

కోహెన్ డి	వివరణ
0.2	చిన్నది
0.5	మధ్యస్థం
0.8	పెద్దది

d = 0.1తో ఉన్న అత్యంత ముఖ్యమైన p-విలువ అంటే మీరు నిజమైన కానీ అల్పమైన చిన్న ప్రభావాన్ని గుర్తించారని అర్థం — బహుశా మీ నమూనా అపారమైనది కాబట్టి. ఎల్లప్పుడూ p-విలువలతో పాటు ప్రభావ పరిమాణాలను నివేదించండి.

చి-స్క్వేర్ టెస్ట్

చి-స్క్వేర్ (χ²) పరీక్ష ఇలా అడుగుతుంది: "చూసిన గణనలు యాదృచ్ఛికంగా మనం ఆశించే దానికంటే భిన్నంగా ఉన్నాయా?"

χ² = Σ (Observed - Expected)² / Expected

మీ డేటా వర్గీకరించబడినప్పుడు దాన్ని ఉపయోగించండి - ఉదాహరణకు, మరణం న్యాయమైనదేనా లేదా చికిత్స ఫలితం చికిత్స సమూహంతో సంబంధం లేకుండా ఉందా అని పరీక్షించడం.

సరైన పరీక్షను ఎంచుకోవడం

పరిస్థితి	పరీక్ష
ఒక అర్థాన్ని తెలిసిన విలువతో పోల్చండి	ఒక నమూనా t-పరీక్ష
రెండు స్వతంత్ర మార్గాలను సరిపోల్చండి	రెండు నమూనా t-పరీక్ష
రెండు జత మార్గాలను సరిపోల్చండి	జత చేసిన t-పరీక్ష
3+ అంటే సరిపోల్చండి	ANOVA
3+ మార్గాలను సరిపోల్చండి (సాధారణం కాదు)	క్రుస్కల్-వాలిస్
రెండు నిరంతర వేరియబుల్స్ మధ్య అనుబంధం	పియర్సన్/స్పియర్‌మ్యాన్ సహసంబంధం
వర్గీకరణ నిష్పత్తులను సరిపోల్చండి	చి-చదరపు
రెండు సమూహాలు, నాన్-నార్మల్ పంపిణీ	మన్-విట్నీ యు

సాధారణ తప్పులు

పీకింగ్: మీ పరీక్షను పదేపదే అమలు చేయడం మరియు p < 0.05 టైప్ I లోపాన్ని నాటకీయంగా పెంచుతుంది. డేటాను సేకరించే ముందు మీ నమూనా పరిమాణాన్ని ప్లాన్ చేయండి.

బహుళ పోలికలు: α = 0.05 వద్ద 20 స్వతంత్ర పరీక్షలను అమలు చేయడం సగటున ఒక తప్పుడు పాజిటివ్‌ను ఉత్పత్తి చేస్తుంది. బోన్‌ఫెరోని దిద్దుబాటును ఉపయోగించండి లేదా తప్పుడు ఆవిష్కరణ రేటును నియంత్రించండి.

ఊహలను విస్మరించడం: చాలా పరీక్షలు యాదృచ్ఛిక నమూనా, పరిశీలనల స్వతంత్రత మరియు (t-పరీక్షల కోసం) సుమారుగా సాధారణతను కలిగి ఉంటాయి. వీటిని ఉల్లంఘించడం వల్ల ఫలితాలు దెబ్బతింటున్నాయి.

మా Z-స్కోర్ కాలిక్యులేటర్, నమూనా పరిమాణం కాలిక్యులేటర్, t-Test Calculator, మరియు [సహసంబంధమైన కాలిక్యులేటర్ ద్వారా మీ స్వంత పని/గణాంకం ద్వారా) డేటా.