પ્રારંભિક લોકો માટે આંકડા: સરેરાશ, SD, પૂર્વધારણા પરીક્ષણો અને વધુ

આંકડા એ અનિશ્ચિતતાની ભાષા છે — એક સાધન જે આપણને અધૂરી માહિતીમાંથી તારણો કાઢવા દે છે. ભલે તમે ન્યૂઝ પોલ વાંચતા હોવ, ક્લિનિકલ ટ્રાયલ પરિણામનું અર્થઘટન કરતા હો, અથવા તમારા પોતાના ડેટાનું પૃથ્થકરણ કરતા હો, આ મુખ્ય ખ્યાલોને સમજવાથી તમે વધુ જટિલ વાચક બની શકો છો.

વર્ણનાત્મક આંકડા: ડેટાનો સારાંશ

તમે ડેટાનું વિશ્લેષણ કરો તે પહેલાં, તમારે તેનું વર્ણન કરવાની જરૂર છે. મુખ્ય પગલાં કેન્દ્રીય વલણ (મધ્યમ ક્યાં છે?) અને સ્પ્રેડ (ડેટા કેટલો ચલ છે?) છે.

સરેરાશ, મધ્ય અને સ્થિતિ

અંકગણિત સરેરાશ એ ગણતરી દ્વારા વિભાજિત રકમ છે. તે સૌથી વધુ પરિચિત સરેરાશ છે પરંતુ તે આઉટલાયર્સ માટે અત્યંત સંવેદનશીલ છે.

જ્યારે ડેટાને સૉર્ટ કરવામાં આવે ત્યારે મધ્યમ એ મધ્યમ મૂલ્ય છે. તે વધુ મજબૂત છે - એક આત્યંતિક મૂલ્ય તેને વધુ ખસેડતું નથી.

મોડ એ સૌથી વધુ વારંવાર આવતું મૂલ્ય છે. સ્પષ્ટ માહિતી માટે ઉપયોગી; સતત માપન માટે ઓછા ઉપયોગી.

ડેટાસેટ	મીન	મધ્યક	મોડ
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

નોંધ લો કે કેવી રીતે એક આત્યંતિક મૂલ્ય (100) સરેરાશ નાટકીય રીતે બદલે છે પરંતુ મધ્યને અસ્પૃશ્ય છોડી દે છે. આથી જ ઘરની કિંમતના આંકડા સરેરાશનો ઉપયોગ કરે છે — મુઠ્ઠીભર મલ્ટિ-મિલિયન-પાઉન્ડ હવેલીઓ સરેરાશ કિંમતોને ગેરમાર્ગે દોરશે.

માનક વિચલન અને વિચલન

ભિન્નતા સરેરાશથી સરેરાશ ચોરસ વિચલનને માપે છે:

σ² = Σ(xi - x̄)² / n

પ્રમાણભૂત વિચલન એ ભિન્નતાનું વર્ગમૂળ છે — તે મૂળ ડેટા જેવા જ એકમોમાં છે, જે તેને અર્થઘટનયોગ્ય બનાવે છે:

σ = √[Σ(xi - x̄)² / n]

સામાન્ય રીતે વિતરિત ડેટા માટે 68-95-99.7 નિયમ:

68% મૂલ્યો સરેરાશના 1 પ્રમાણભૂત વિચલનની અંદર આવે છે
2 પ્રમાણભૂત વિચલનોની અંદર 95%
3 માનક વિચલનોની અંદર 99.7%

નોંધ: વસ્તી પ્રમાણભૂત વિચલન માટે છેદમાં n નો ઉપયોગ કરો; નમૂનાના અંદાજ માટે n−1 નો ઉપયોગ કરો (આને બેસેલનું કરેક્શન કહેવામાં આવે છે અને નમૂનાઓ સાથે થતા સહેજ ઓછો અંદાજ માટે સુધારે છે).

સામાન્ય વિતરણ

સામાન્ય (ગૌસીયન) વિતરણ એ ઘંટ આકારનો વળાંક છે જે પ્રકૃતિ અને આંકડાઓમાં દરેક જગ્યાએ દેખાય છે. તે સંપૂર્ણપણે બે પરિમાણો દ્વારા વર્ણવેલ છે: સરેરાશ (μ) અને પ્રમાણભૂત વિચલન (σ).

z-સ્કોર કોઈપણ મૂલ્યને "માધ્યમમાંથી કેટલા પ્રમાણભૂત વિચલનો" માં રૂપાંતરિત કરે છે:

z = (x - μ) / σ

1.96 નો z-સ્કોર 97.5મી પર્સેન્ટાઇલને અનુરૂપ છે - જે મૂલ્ય ઉપરનું વિતરણ માત્ર 2.5% છે. આ આત્મવિશ્વાસના અંતરાલોને કારણે આંકડાઓમાં સતત દેખાય છે.

કેન્દ્રીય મર્યાદા પ્રમેય શા માટે સામાન્ય વિતરણ ખૂબ મહત્વ ધરાવે છે: મૂળ વસ્તીના આકારને ધ્યાનમાં લીધા વિના, નમૂનાનું વિતરણ એટલે નમૂનાનું કદ વધવાથી સામાન્યતાની નજીક આવે છે. આ જ કારણ છે કે જ્યારે કાચો ડેટા સામાન્ય રીતે વિતરિત થતો નથી ત્યારે પણ ઘણા આંકડાકીય પરીક્ષણો સામાન્યતા ધારે છે.

આત્મવિશ્વાસ અંતરાલ

95% આત્મવિશ્વાસ અંતરાલનો અર્થ એ નથી કે "સાચા મૂલ્યની આ શ્રેણીમાં 95% સંભાવના છે." તેનો અર્થ છે: "જો આપણે આ સેમ્પલિંગ પ્રક્રિયાને ઘણી વખત પુનરાવર્તિત કરીએ, તો અમે ગણતરી કરેલ અંતરાલોના 95%માં સાચું મૂલ્ય હશે."

કદ n ના નમૂનામાંથી p પ્રમાણ માટે:

CI = p ± z × √(p(1-p)/n)

95% આત્મવિશ્વાસ માટે, z = 1.96. 99% માટે, z = 2.576.

ભૂલનો માર્જિન એ માત્ર ± ભાગ છે: z × √(p(1-p)/n). જ્યારે મતદાન "±3 ટકા પોઈન્ટ્સ" નો અહેવાલ આપે છે, ત્યારે આ ભૂલનો માર્જિન છે.

પૂર્વધારણા પરીક્ષણ

દરેક પૂર્વધારણા પરીક્ષણ સમાન માળખાને અનુસરે છે:

H₀ (નલ પૂર્વધારણા): મૂળભૂત — સામાન્ય રીતે "કોઈ અસર નથી," "કોઈ તફાવત નથી," "કોઈ સંબંધ નથી"
H₁ (વૈકલ્પિક પૂર્વધારણા): તમે જેના માટે પુરાવા બતાવવાનો પ્રયાસ કરી રહ્યાં છો
પરીક્ષણ આંકડા: ડેટામાંથી ગણતરી કરેલ સંખ્યા જે માપે છે કે ડેટા H₀ થી કેટલો દૂર છે
p-મૂલ્ય: જો H₀ સાચું હોત તો ઓછામાં ઓછું આટલું આત્યંતિક પરિણામ જોવાની સંભાવના

p-મૂલ્ય સમજાવ્યું

0.03 ની p-વેલ્યુનો અર્થ થાય છે: "જો ખરેખર કોઈ અસર ન હોય, તો અમે આકસ્મિક રીતે માત્ર 3% વખત ડેટા જોશું." આ સામાન્ય રીતે H₀ ને નકારવા માટે પૂરતું નોંધપાત્ર માનવામાં આવે છે.

શું p < 0.05 નો અર્થ એ નથી:

તેનો અર્થ એ નથી કે અસર વાસ્તવિક હોવાની 95% તક છે
તેનો અર્થ એ નથી કે અસર વ્યવહારીક રીતે મહત્વપૂર્ણ છે
તેનો અર્થ એ નથી કે H₀ ખોટા છે

પ્રકાર I અને પ્રકાર II ભૂલો:

	H₀ સાચું છે	H₀ ખોટું છે
H₀ને નકારો	ટાઇપ I ભૂલ (ખોટી હકારાત્મક)	સાચો
H₀ને નકારવામાં નિષ્ફળ	સાચો	પ્રકાર II ભૂલ (ખોટી નકારાત્મક)

α (મહત્વનું સ્તર) = પ્રકાર I ભૂલ દર, સામાન્ય રીતે 0.05 β = પ્રકાર II ભૂલ દર; પાવર = 1 − β, સામાન્ય રીતે 0.80 પર લક્ષિત

ટી-ટેસ્ટ

ટી-ટેસ્ટ જૂથો વચ્ચેના અર્થની તુલના કરે છે. બે-નમૂના ટી-આંકડા છે:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

મોટી |t| મતલબ કે જૂથો અંદર-જૂથ પરિવર્તનશીલતાના સંદર્ભમાં ઘણા દૂર છે. સ્વતંત્રતાની યોગ્ય ડિગ્રી સાથે નિર્ણાયક મૂલ્ય (અથવા p-મૂલ્યની ગણતરી) સાથે સરખામણી કરો.

તેનો ઉપયોગ ક્યારે કરવો: સ્વતંત્ર જૂથોમાંથી બે માધ્યમોની સરખામણી કરવી, જ્યારે ડેટા લગભગ સામાન્ય હોય અથવા n > 30.

સહસંબંધ

પિયર્સનનો આર બે ચલો વચ્ચેના રેખીય સંબંધની મજબૂતાઈને માપે છે:

r = +1: સંપૂર્ણ હકારાત્મક રેખીય સંબંધ
r = 0: કોઈ રેખીય સંબંધ નથી
r = −1: સંપૂર્ણ નકારાત્મક રેખીય સંબંધ

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r વર્ગ) તમને X દ્વારા સમજાવાયેલ Y માં ભિન્નતાનું પ્રમાણ કહે છે. જો r = 0.7, તો R² = 0.49 — X એ Y માં 49% પરિવર્તનશીલતા સમજાવે છે.

Spearman's ρ (rho) એ જ વસ્તુ કરે છે પરંતુ કાચા મૂલ્યોને બદલે રેન્કનો ઉપયોગ કરે છે, જે તેને આઉટલાયર્સ માટે મજબૂત બનાવે છે અને ઑર્ડિનલ ડેટા માટે યોગ્ય બનાવે છે.

યાદ રાખો: સહસંબંધ ≠ કારણ. આઈસ્ક્રીમનું વેચાણ અને ડૂબવાના દરો મજબૂત રીતે સંબંધિત છે (ઉનાળામાં બંને ટોચ પર છે), પરંતુ આઈસ્ક્રીમ ડૂબવાનું કારણ નથી.

અસરનું કદ

આંકડાકીય મહત્વ તમને કહે છે કે શું અસર વાસ્તવિક છે; અસર કદ તમને કહે છે કે તે કેટલું મોટું છે. બે અર્થની સરખામણી કરવા માટે કોહેનની ડી.

d = (μ₁ - μ₂) / σ_pooled

કોહેનની ડી	અર્થઘટન
0.2	નાના
0.5	મધ્યમ
0.8	વિશાળ

d = 0.1 સાથે અત્યંત નોંધપાત્ર p-મૂલ્યનો અર્થ એ છે કે તમે વાસ્તવિક પરંતુ નજીવી રીતે નાની અસર શોધી કાઢી છે — સંભવતઃ કારણ કે તમારું નમૂના પ્રચંડ હતું. હંમેશા p-મૂલ્યોની સાથે અસરના કદની જાણ કરો.

ચી-સ્ક્વેર ટેસ્ટ

ચી-સ્ક્વેર (χ²) પરીક્ષણ પૂછે છે: "શું અવલોકન કરાયેલ ગણતરીઓ આપણે તક દ્વારા અપેક્ષા રાખીએ છીએ તેનાથી અલગ છે?"

χ² = Σ (Observed - Expected)² / Expected

જ્યારે તમારો ડેટા સ્પષ્ટ હોય ત્યારે તેનો ઉપયોગ કરો — ઉદાહરણ તરીકે, મૃત્યુ વાજબી છે કે કેમ તે પરીક્ષણ, અથવા સારવારનું પરિણામ સારવાર જૂથથી સ્વતંત્ર છે કે કેમ.

યોગ્ય કસોટી પસંદ કરી રહ્યા છીએ

સિચ્યુએશન	ટેસ્ટ
એક સરેરાશને જાણીતા મૂલ્ય સાથે સરખાવો	એક-નમૂનો ટી-ટેસ્ટ
બે સ્વતંત્ર માધ્યમોની તુલના કરો	બે-નમૂના ટી-ટેસ્ટ
બે જોડીવાળા માધ્યમોની તુલના કરો	જોડી ટી-ટેસ્ટ
3+ અર્થની સરખામણી કરો	એનોવા
3+ અર્થની તુલના કરો (બિન-સામાન્ય)	ક્રુસ્કલ-વોલિસ
બે સતત ચલો વચ્ચે જોડાણ	પીયર્સન/સ્પીયરમેન સહસંબંધ
સ્પષ્ટ પ્રમાણની તુલના કરો	ચી-ચોરસ
બે જૂથો, બિન-સામાન્ય વિતરણ	માન-વ્હીટની યુ

સામાન્ય ભૂલો

પીકિંગ: તમારી ટેસ્ટ વારંવાર ચલાવવી અને જ્યારે p < 0.05 નાટકીય રીતે ટાઈપ I ભૂલને વધારે છે. ડેટા એકત્રિત કરતા પહેલા તમારા નમૂનાના કદની યોજના બનાવો.

બહુવિધ સરખામણીઓ: α = 0.05 પર 20 સ્વતંત્ર પરીક્ષણો ચલાવવાથી સરેરાશ એક ખોટા હકારાત્મક પેદા થશે. બોનફેરોની સુધારણાનો ઉપયોગ કરો અથવા ખોટા શોધ દરને નિયંત્રિત કરો.

ધારણાઓને અવગણવી: મોટાભાગના પરીક્ષણો રેન્ડમ સેમ્પલિંગ, અવલોકનોની સ્વતંત્રતા અને (ટી-ટેસ્ટ માટે) અંદાજિત સામાન્યતા ધારે છે. આનું ઉલ્લંઘન પરિણામોને નબળી પાડે છે.

અમારા Z-સ્કોર કેલ્ક્યુલેટર, સેમ્પલ સાઈઝ કેલ્ક્યુલેટર, t-ટેસ્ટ કેલ્ક્યુલેટર, અને કોરિલેશન કેલ્ક્યુલેટર નો ઉપયોગ કરો. ડેટા