Estatísticas para iniciantes: média, DP, testes de hipóteses e muito mais

A estatística é a linguagem da incerteza – a ferramenta que nos permite tirar conclusões a partir de informações incompletas. Esteja você lendo uma pesquisa de notícias, interpretando o resultado de um ensaio clínico ou analisando seus próprios dados, a compreensão desses conceitos básicos o tornará um leitor muito mais crítico.

Estatística Descritiva: Resumindo Dados

Antes de poder analisar os dados, você precisa descrevê-los. As principais medidas são tendência central (onde está o meio?) e distribuição (quão variáveis são os dados?).

Média, Mediana e Moda

A média aritmética é a soma dividida pela contagem. É a média mais familiar, mas é altamente sensível a valores discrepantes.

A mediana é o valor médio quando os dados são classificados. É mais robusto – um único valor extremo não o move muito.

O modo é o valor mais frequente. Útil para dados categóricos; menos útil para medições contínuas.

Conjunto de dados	Significar	Mediana	Modo
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

Observe como um valor extremo (100) altera drasticamente a média, mas deixa a mediana intacta. É por isso que as estatísticas de preços de casas utilizam a mediana – um punhado de mansões multimilionárias tornaria os preços médios enganadores.

Desvio Padrão e Variância

A variância mede o desvio quadrático médio da média:

σ² = Σ(xi - x̄)² / n

O desvio padrão é a raiz quadrada da variância – está nas mesmas unidades dos dados originais, o que o torna interpretável:

σ = √[Σ(xi - x̄)² / n]

A regra 68-95-99.7 para dados normalmente distribuídos:

68% dos valores estão dentro de 1 desvio padrão da média
95% dentro de 2 desvios padrão
99,7% dentro de 3 desvios padrão

Observação: Use n no denominador do desvio padrão populacional; use n−1 para uma estimativa amostral (isso é chamado de correção de Bessel e corrige a ligeira subestimação que ocorre com as amostras).

A distribuição normal

A distribuição normal (Gaussiana) é a curva em forma de sino que aparece em toda parte na natureza e nas estatísticas. É totalmente descrito por dois parâmetros: média (μ) e desvio padrão (σ).

O z-score converte qualquer valor em "quantos desvios padrão da média":

z = (x - μ) / σ

Um escore z de 1,96 corresponde ao percentil 97,5 – valor acima do qual se encontra apenas 2,5% da distribuição. Isto aparece constantemente nas estatísticas devido aos intervalos de confiança.

O Teorema do Limite Central é o motivo pelo qual a distribuição normal é tão importante: independentemente da forma da população original, a distribuição das médias amostrais se aproxima da normalidade à medida que o tamanho da amostra aumenta. É por isso que tantos testes estatísticos assumem normalidade mesmo quando os dados brutos não são distribuídos normalmente.

Intervalos de confiança

Um intervalo de confiança de 95% não significa que “há uma probabilidade de 95% de que o valor verdadeiro esteja nesse intervalo”. Significa: “se repetissemos esse processo de amostragem muitas vezes, 95% dos intervalos que calculamos conteriam o valor verdadeiro”.

Para uma proporção p de uma amostra de tamanho n:

CI = p ± z × √(p(1-p)/n)

Para 95% de confiança, z = 1,96. Para 99%, z = 2,576.

Margem de erro é apenas a parte ±: z × √(p(1-p)/n). Quando uma pesquisa informa “±3 pontos percentuais”, esta é a margem de erro.

Teste de hipóteses

Todo teste de hipótese segue a mesma estrutura:

H₀ (hipótese nula): O padrão - geralmente "sem efeito", "sem diferença", "sem relacionamento"
H₁ (hipótese alternativa): O que você está tentando mostrar evidências
Estatística de teste: Um número calculado a partir dos dados que mede a distância de H₀ os dados estão
valor p: A probabilidade de observar um resultado pelo menos neste extremo se H₀ fosse verdadeiro

O valor p explicado

Um valor p de 0,03 significa: “Se realmente não houvesse nenhum efeito, veríamos dados tão extremos por acaso apenas 3% das vezes”. Isso geralmente é considerado significativo o suficiente para rejeitar H₀.

O que p < 0,05 NÃO significa:

Isso não significa que há 95% de chance de o efeito ser real
Isso não significa que o efeito seja praticamente importante
Isso não significa que H₀ seja falso

Erros Tipo I e Tipo II:

	H₀ é verdade	H₀ é falso
Rejeitar H₀	Erro tipo I (falso positivo)	Correto
Falha ao rejeitar H₀	Correto	Erro tipo II (falso negativo)

α (nível de significância) = taxa de erro tipo I, geralmente 0,05 β = taxa de erro tipo II; Poder = 1 − β, geralmente direcionado a 0,80

O teste t

O teste t compara médias entre grupos. A estatística t de duas amostras é:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

Um grande |t| significa que os grupos estão distantes em relação à variabilidade dentro do grupo. Compare com um valor crítico (ou calcule o valor p) com os graus de liberdade apropriados.

Quando usar: Comparação de duas médias de grupos independentes, quando os dados são aproximadamente normais ou n > 30.

Correlação

R de Pearson mede a força da relação linear entre duas variáveis:

r = +1: Relação linear positiva perfeita
r = 0: Sem relação linear
r = −1: Relação linear negativa perfeita

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r ao quadrado) informa a proporção da variância em Y explicada por X. Se r = 0,7, então R² = 0,49 – X explica 49% da variabilidade em Y.

O ρ (rho) de Spearman faz a mesma coisa, mas usa classificações em vez de valores brutos, tornando-o robusto para valores discrepantes e apropriado para dados ordinais.

Lembre-se: Correlação ≠ causalidade. As vendas de sorvete e as taxas de afogamento estão fortemente correlacionadas (ambos atingem o pico no verão), mas o sorvete não causa afogamento.

Tamanho do efeito

A significância estatística informa se um efeito é real; tamanho do efeito informa quão grande é. D de Cohen para comparar duas médias:

d = (μ₁ - μ₂) / σ_pooled

Cohen's d	Interpretação
0.2	Pequeno
0.5	Médio
0.8	Grande

Um valor p altamente significativo com d = 0,1 significa que você detectou um efeito real, mas trivialmente pequeno – possivelmente porque sua amostra era enorme. Sempre relate os tamanhos dos efeitos junto com os valores p.

Teste Qui-Quadrado

O teste qui-quadrado (χ²) pergunta: "As contagens observadas diferem do que esperaríamos por acaso?"

χ² = Σ (Observed - Expected)² / Expected

Use-o quando seus dados forem categóricos — por exemplo, testando se um dado é justo ou se o resultado do tratamento é independente do grupo de tratamento.

Escolhendo o teste certo

Situação	Teste
Compare uma média com um valor conhecido	Teste t de uma amostra
Compare duas médias independentes	Teste t de duas amostras
Compare duas médias pareadas	Teste t pareado
Compare 3+ médias	ANOVA
Compare 3+ médias (não normais)	Kruskal Wallis
Associação entre duas variáveis contínuas	Correlação de Pearson/Spearman
Compare proporções categóricas	Qui-quadrado
Dois grupos, distribuição não normal	Mann-Whitney U

Erros Comuns

Espiar: Executar seu teste repetidamente e parar quando p < 0,05 aumenta dramaticamente o erro Tipo I. Planeje o tamanho da sua amostra antes de coletar dados.

Comparações múltiplas: A execução de 20 testes independentes com α = 0,05 produzirá, em média, um falso positivo. Use a correção de Bonferroni ou controle a taxa de falsas descobertas.

Ignorando suposições: A maioria dos testes pressupõe amostragem aleatória, independência de observações e (para testes t) normalidade aproximada. Violar isso prejudica os resultados.

Use nossa calculadora de pontuação Z, calculadora de tamanho de amostra, calculadora de teste t e calculadora de correlação para trabalhar com seus próprios dados.