આંકડા એ અનિશ્ચિતતાની ભાષા છે — એક સાધન જે આપણને અધૂરી માહિતીમાંથી તારણો કાઢવા દે છે. ભલે તમે ન્યૂઝ પોલ વાંચતા હોવ, ક્લિનિકલ ટ્રાયલ પરિણામનું અર્થઘટન કરતા હો, અથવા તમારા પોતાના ડેટાનું પૃથ્થકરણ કરતા હો, આ મુખ્ય ખ્યાલોને સમજવાથી તમે વધુ જટિલ વાચક બની શકો છો.
વર્ણનાત્મક આંકડા: ડેટાનો સારાંશ
તમે ડેટાનું વિશ્લેષણ કરો તે પહેલાં, તમારે તેનું વર્ણન કરવાની જરૂર છે. મુખ્ય પગલાં કેન્દ્રીય વલણ (મધ્યમ ક્યાં છે?) અને સ્પ્રેડ (ડેટા કેટલો ચલ છે?) છે.
સરેરાશ, મધ્ય અને સ્થિતિ
અંકગણિત સરેરાશ એ ગણતરી દ્વારા વિભાજિત રકમ છે. તે સૌથી વધુ પરિચિત સરેરાશ છે પરંતુ તે આઉટલાયર્સ માટે અત્યંત સંવેદનશીલ છે.
જ્યારે ડેટાને સૉર્ટ કરવામાં આવે ત્યારે મધ્યમ એ મધ્યમ મૂલ્ય છે. તે વધુ મજબૂત છે - એક આત્યંતિક મૂલ્ય તેને વધુ ખસેડતું નથી.
મોડ એ સૌથી વધુ વારંવાર આવતું મૂલ્ય છે. સ્પષ્ટ માહિતી માટે ઉપયોગી; સતત માપન માટે ઓછા ઉપયોગી.
| ડેટાસેટ | મીન | મધ્યક | મોડ |
|---|---|---|---|
| 2, 4, 4, 6, 8 | 4.8 | 4 | 4 |
| 2, 4, 4, 6, 100 | 23.2 | 4 | 4 |
નોંધ લો કે કેવી રીતે એક આત્યંતિક મૂલ્ય (100) સરેરાશ નાટકીય રીતે બદલે છે પરંતુ મધ્યને અસ્પૃશ્ય છોડી દે છે. આથી જ ઘરની કિંમતના આંકડા સરેરાશનો ઉપયોગ કરે છે — મુઠ્ઠીભર મલ્ટિ-મિલિયન-પાઉન્ડ હવેલીઓ સરેરાશ કિંમતોને ગેરમાર્ગે દોરશે.
માનક વિચલન અને વિચલન
ભિન્નતા સરેરાશથી સરેરાશ ચોરસ વિચલનને માપે છે:
σ² = Σ(xi - x̄)² / n
પ્રમાણભૂત વિચલન એ ભિન્નતાનું વર્ગમૂળ છે — તે મૂળ ડેટા જેવા જ એકમોમાં છે, જે તેને અર્થઘટનયોગ્ય બનાવે છે:
σ = √[Σ(xi - x̄)² / n]
સામાન્ય રીતે વિતરિત ડેટા માટે 68-95-99.7 નિયમ:
- 68% મૂલ્યો સરેરાશના 1 પ્રમાણભૂત વિચલનની અંદર આવે છે
- 2 પ્રમાણભૂત વિચલનોની અંદર 95%
- 3 માનક વિચલનોની અંદર 99.7%
નોંધ: વસ્તી પ્રમાણભૂત વિચલન માટે છેદમાં n નો ઉપયોગ કરો; નમૂનાના અંદાજ માટે n−1 નો ઉપયોગ કરો (આને બેસેલનું કરેક્શન કહેવામાં આવે છે અને નમૂનાઓ સાથે થતા સહેજ ઓછો અંદાજ માટે સુધારે છે).
સામાન્ય વિતરણ
સામાન્ય (ગૌસીયન) વિતરણ એ ઘંટ આકારનો વળાંક છે જે પ્રકૃતિ અને આંકડાઓમાં દરેક જગ્યાએ દેખાય છે. તે સંપૂર્ણપણે બે પરિમાણો દ્વારા વર્ણવેલ છે: સરેરાશ (μ) અને પ્રમાણભૂત વિચલન (σ).
z-સ્કોર કોઈપણ મૂલ્યને "માધ્યમમાંથી કેટલા પ્રમાણભૂત વિચલનો" માં રૂપાંતરિત કરે છે:
z = (x - μ) / σ
1.96 નો z-સ્કોર 97.5મી પર્સેન્ટાઇલને અનુરૂપ છે - જે મૂલ્ય ઉપરનું વિતરણ માત્ર 2.5% છે. આ આત્મવિશ્વાસના અંતરાલોને કારણે આંકડાઓમાં સતત દેખાય છે.
કેન્દ્રીય મર્યાદા પ્રમેય શા માટે સામાન્ય વિતરણ ખૂબ મહત્વ ધરાવે છે: મૂળ વસ્તીના આકારને ધ્યાનમાં લીધા વિના, નમૂનાનું વિતરણ એટલે નમૂનાનું કદ વધવાથી સામાન્યતાની નજીક આવે છે. આ જ કારણ છે કે જ્યારે કાચો ડેટા સામાન્ય રીતે વિતરિત થતો નથી ત્યારે પણ ઘણા આંકડાકીય પરીક્ષણો સામાન્યતા ધારે છે.
આત્મવિશ્વાસ અંતરાલ
95% આત્મવિશ્વાસ અંતરાલનો અર્થ એ નથી કે "સાચા મૂલ્યની આ શ્રેણીમાં 95% સંભાવના છે." તેનો અર્થ છે: "જો આપણે આ સેમ્પલિંગ પ્રક્રિયાને ઘણી વખત પુનરાવર્તિત કરીએ, તો અમે ગણતરી કરેલ અંતરાલોના 95%માં સાચું મૂલ્ય હશે."
કદ n ના નમૂનામાંથી p પ્રમાણ માટે:
CI = p ± z × √(p(1-p)/n)
95% આત્મવિશ્વાસ માટે, z = 1.96. 99% માટે, z = 2.576.
ભૂલનો માર્જિન એ માત્ર ± ભાગ છે: z × √(p(1-p)/n). જ્યારે મતદાન "±3 ટકા પોઈન્ટ્સ" નો અહેવાલ આપે છે, ત્યારે આ ભૂલનો માર્જિન છે.
પૂર્વધારણા પરીક્ષણ
દરેક પૂર્વધારણા પરીક્ષણ સમાન માળખાને અનુસરે છે:
- H₀ (નલ પૂર્વધારણા): મૂળભૂત — સામાન્ય રીતે "કોઈ અસર નથી," "કોઈ તફાવત નથી," "કોઈ સંબંધ નથી"
- H₁ (વૈકલ્પિક પૂર્વધારણા): તમે જેના માટે પુરાવા બતાવવાનો પ્રયાસ કરી રહ્યાં છો
- પરીક્ષણ આંકડા: ડેટામાંથી ગણતરી કરેલ સંખ્યા જે માપે છે કે ડેટા H₀ થી કેટલો દૂર છે
- p-મૂલ્ય: જો H₀ સાચું હોત તો ઓછામાં ઓછું આટલું આત્યંતિક પરિણામ જોવાની સંભાવના
p-મૂલ્ય સમજાવ્યું
0.03 ની p-વેલ્યુનો અર્થ થાય છે: "જો ખરેખર કોઈ અસર ન હોય, તો અમે આકસ્મિક રીતે માત્ર 3% વખત ડેટા જોશું." આ સામાન્ય રીતે H₀ ને નકારવા માટે પૂરતું નોંધપાત્ર માનવામાં આવે છે.
શું p < 0.05 નો અર્થ એ નથી:
- તેનો અર્થ એ નથી કે અસર વાસ્તવિક હોવાની 95% તક છે
- તેનો અર્થ એ નથી કે અસર વ્યવહારીક રીતે મહત્વપૂર્ણ છે
- તેનો અર્થ એ નથી કે H₀ ખોટા છે
પ્રકાર I અને પ્રકાર II ભૂલો:
| H₀ સાચું છે | H₀ ખોટું છે | |
|---|---|---|
| ** H₀**ને નકારો | ટાઇપ I ભૂલ (ખોટી હકારાત્મક) | સાચો |
| H₀ને નકારવામાં નિષ્ફળ | સાચો | પ્રકાર II ભૂલ (ખોટી નકારાત્મક) |
α (મહત્વનું સ્તર) = પ્રકાર I ભૂલ દર, સામાન્ય રીતે 0.05 β = પ્રકાર II ભૂલ દર; પાવર = 1 − β, સામાન્ય રીતે 0.80 પર લક્ષિત
ટી-ટેસ્ટ
ટી-ટેસ્ટ જૂથો વચ્ચેના અર્થની તુલના કરે છે. બે-નમૂના ટી-આંકડા છે:
t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)
મોટી |t| મતલબ કે જૂથો અંદર-જૂથ પરિવર્તનશીલતાના સંદર્ભમાં ઘણા દૂર છે. સ્વતંત્રતાની યોગ્ય ડિગ્રી સાથે નિર્ણાયક મૂલ્ય (અથવા p-મૂલ્યની ગણતરી) સાથે સરખામણી કરો.
તેનો ઉપયોગ ક્યારે કરવો: સ્વતંત્ર જૂથોમાંથી બે માધ્યમોની સરખામણી કરવી, જ્યારે ડેટા લગભગ સામાન્ય હોય અથવા n > 30.
સહસંબંધ
પિયર્સનનો આર બે ચલો વચ્ચેના રેખીય સંબંધની મજબૂતાઈને માપે છે:
- r = +1: સંપૂર્ણ હકારાત્મક રેખીય સંબંધ
- r = 0: કોઈ રેખીય સંબંધ નથી
- r = −1: સંપૂર્ણ નકારાત્મક રેખીય સંબંધ
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]
R² (r વર્ગ) તમને X દ્વારા સમજાવાયેલ Y માં ભિન્નતાનું પ્રમાણ કહે છે. જો r = 0.7, તો R² = 0.49 — X એ Y માં 49% પરિવર્તનશીલતા સમજાવે છે.
Spearman's ρ (rho) એ જ વસ્તુ કરે છે પરંતુ કાચા મૂલ્યોને બદલે રેન્કનો ઉપયોગ કરે છે, જે તેને આઉટલાયર્સ માટે મજબૂત બનાવે છે અને ઑર્ડિનલ ડેટા માટે યોગ્ય બનાવે છે.
યાદ રાખો: સહસંબંધ ≠ કારણ. આઈસ્ક્રીમનું વેચાણ અને ડૂબવાના દરો મજબૂત રીતે સંબંધિત છે (ઉનાળામાં બંને ટોચ પર છે), પરંતુ આઈસ્ક્રીમ ડૂબવાનું કારણ નથી.
અસરનું કદ
આંકડાકીય મહત્વ તમને કહે છે કે શું અસર વાસ્તવિક છે; અસર કદ તમને કહે છે કે તે કેટલું મોટું છે. બે અર્થની સરખામણી કરવા માટે કોહેનની ડી.
d = (μ₁ - μ₂) / σ_pooled
| કોહેનની ડી | અર્થઘટન |
|---|---|
| 0.2 | નાના |
| 0.5 | મધ્યમ |
| 0.8 | વિશાળ |
d = 0.1 સાથે અત્યંત નોંધપાત્ર p-મૂલ્યનો અર્થ એ છે કે તમે વાસ્તવિક પરંતુ નજીવી રીતે નાની અસર શોધી કાઢી છે — સંભવતઃ કારણ કે તમારું નમૂના પ્રચંડ હતું. હંમેશા p-મૂલ્યોની સાથે અસરના કદની જાણ કરો.
ચી-સ્ક્વેર ટેસ્ટ
ચી-સ્ક્વેર (χ²) પરીક્ષણ પૂછે છે: "શું અવલોકન કરાયેલ ગણતરીઓ આપણે તક દ્વારા અપેક્ષા રાખીએ છીએ તેનાથી અલગ છે?"
χ² = Σ (Observed - Expected)² / Expected
જ્યારે તમારો ડેટા સ્પષ્ટ હોય ત્યારે તેનો ઉપયોગ કરો — ઉદાહરણ તરીકે, મૃત્યુ વાજબી છે કે કેમ તે પરીક્ષણ, અથવા સારવારનું પરિણામ સારવાર જૂથથી સ્વતંત્ર છે કે કેમ.
યોગ્ય કસોટી પસંદ કરી રહ્યા છીએ
| સિચ્યુએશન | ટેસ્ટ |
|---|---|
| એક સરેરાશને જાણીતા મૂલ્ય સાથે સરખાવો | એક-નમૂનો ટી-ટેસ્ટ |
| બે સ્વતંત્ર માધ્યમોની તુલના કરો | બે-નમૂના ટી-ટેસ્ટ |
| બે જોડીવાળા માધ્યમોની તુલના કરો | જોડી ટી-ટેસ્ટ |
| 3+ અર્થની સરખામણી કરો | એનોવા |
| 3+ અર્થની તુલના કરો (બિન-સામાન્ય) | ક્રુસ્કલ-વોલિસ |
| બે સતત ચલો વચ્ચે જોડાણ | પીયર્સન/સ્પીયરમેન સહસંબંધ |
| સ્પષ્ટ પ્રમાણની તુલના કરો | ચી-ચોરસ |
| બે જૂથો, બિન-સામાન્ય વિતરણ | માન-વ્હીટની યુ |
સામાન્ય ભૂલો
પીકિંગ: તમારી ટેસ્ટ વારંવાર ચલાવવી અને જ્યારે p < 0.05 નાટકીય રીતે ટાઈપ I ભૂલને વધારે છે. ડેટા એકત્રિત કરતા પહેલા તમારા નમૂનાના કદની યોજના બનાવો.
બહુવિધ સરખામણીઓ: α = 0.05 પર 20 સ્વતંત્ર પરીક્ષણો ચલાવવાથી સરેરાશ એક ખોટા હકારાત્મક પેદા થશે. બોનફેરોની સુધારણાનો ઉપયોગ કરો અથવા ખોટા શોધ દરને નિયંત્રિત કરો.
ધારણાઓને અવગણવી: મોટાભાગના પરીક્ષણો રેન્ડમ સેમ્પલિંગ, અવલોકનોની સ્વતંત્રતા અને (ટી-ટેસ્ટ માટે) અંદાજિત સામાન્યતા ધારે છે. આનું ઉલ્લંઘન પરિણામોને નબળી પાડે છે.
અમારા Z-સ્કોર કેલ્ક્યુલેટર, સેમ્પલ સાઈઝ કેલ્ક્યુલેટર, t-ટેસ્ટ કેલ્ક્યુલેટર, અને કોરિલેશન કેલ્ક્યુલેટર નો ઉપયોગ કરો. ડેટા