统计学是不确定性的语言——它是让我们从不完整的信息中得出结论的工具。无论您是在阅读新闻民意调查、解释临床试验结果,还是分析自己的数据,理解这些核心概念都将使您成为一个更具批判性的读者。

描述性统计:汇总数据

在分析数据之前,您需要对其进行描述。关键指标是集中趋势(中间在哪里?)和散布(数据的变化程度如何?)。

均值、中位数和众数

算术平均值是总和除以计数。这是最熟悉的平均值,但对异常值高度敏感。

中位数是数据排序时位于中间的值。它更加稳健——单个极值不会对其产生太大影响。

众数是最常见的值。对于分类数据有用;对于连续测量不太有用。

数据集 意思是 中位数 模式
2, 4, 4, 6, 8 4.8 4 4
2, 4, 4, 6, 100 23.2 4 4

请注意一个极值 (100) 如何显着改变平均值,但中位数保持不变。这就是为什么房价统计数据使用中位数——少数价值数百万英镑的豪宅会让平均价格产生误导。

标准差和方差

方差衡量与均值的平均平方偏差:

σ² = Σ(xi - x̄)² / n

标准差是方差的平方根——它的单位与原始数据相同,这使得它可以解释:

σ = √[Σ(xi - x̄)² / n]

正态分布数据的 68-95-99.7 规则

  • 68% 的值落在平均值的 1 个标准差范围内
  • 95% 在 2 个标准差以内
  • 99.7% 在 3 个标准差以内

注: 使用 n 作为总体标准差的分母;使用 n−1 进行样本估计(这称为贝塞尔校正并校正样本中发生的轻微低估)。

正态分布

正态(高斯)分布是自然界和统计中随处可见的钟形曲线。它由两个参数完整描述:平均值 (μ) 和标准差 (σ)。

z-score 将任何值转换为“与平均值的标准差有多少”:

z = (x - μ) / σ

z 分数 1.96 对应于第 97.5 个百分位 — 只有 2.5% 的分布位于该值之上。由于置信区间的原因,这种情况经常出现在统计数据中。

中心极限定理是正态分布如此重要的原因:无论原始总体的形状如何,随着样本量的增加,样本均值的分布会接近正态分布。这就是为什么即使原始数据不呈正态分布,许多统计检验也假设呈正态性。

置信区间

95% 置信区间并不意味着“真实值有 95% 的概率在此范围内”。这意味着:“如果我们多次重复此采样过程,我们计算的 95% 的间隔将包含真实值。”

对于大小为 n 的样本中的比例 p:

CI = p ± z × √(p(1-p)/n)

对于 95% 的置信度,z = 1.96。对于 99%,z = 2.576。

误差幅度只是±部分:z × √(p(1-p)/n)。当民意调查报告“±3 个百分点”时,这就是误差幅度。

假设检验

每个假设检验都遵循相同的结构:

  1. H₀(零假设): 默认值 — 通常“没有影响”、“没有差异”、“没有关系”
  2. H₁(替代假设): 你想要证明什么
  3. 检验统计量: 根据数据计算得出的数字,用于衡量数据与 H₀ 的距离
  4. p 值: 如果 H₀ 为真,则观察到至少此极端结果的概率

p 值解释

p 值为 0.03 意味着:“如果确实没有影响,我们只有 3% 的概率会偶然看到如此极端的数据。”这通常被认为足够重要以拒绝 H₀。

什么p < 0.05 并不意味着:

  • 这并不意味着该效果有 95% 的可能性是真实的
  • 这并不意味着效果实际上很重要
  • 这并不意味着 H₀ 是假的

第一类和第二类错误:

H₀ 为真 H₀ 为假
拒绝H₀ I 类错误(误报) 正确的
无法拒绝H₀ 正确的 II 类错误(假阴性)

α(显着性水平)= I 类错误率,通常为 0.05 β = II 类错误率;功效 = 1 − β,通常目标为 0.80

t 检验

t 检验比较组间的平均值。双样本 t 统计量为:

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

一个大|t|意味着各组相对于组内变异性而言相距甚远。与具有适当自由度的临界值进行比较(或计算 p 值)。

何时使用它: 当数据近似正态或 n > 时,比较独立组的两个平均值。 30.

## 相关性

Pearson r 衡量两个变量之间线性关系的强度:

  • r = +1:完美的正线性关系
  • r = 0:没有线性关系
  • r = −1:完美负线性关系
r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

(r 平方)告诉您由 X 解释的 Y 中方差的比例。如果 r = 0.7,则 R² = 0.49 — X 解释了 Y 中 49% 的变异。

Spearman 的 ρ (rho) 执行相同的操作,但使用排名而不是原始值,使其对异常值具有鲁棒性并适合序数数据。

**记住:**相关性≠因果关系。冰淇淋销量和溺水率密切相关(均在夏季达到高峰),但冰淇淋不会导致溺水。

效果大小

统计显着性告诉您效果是否真实; 效应大小告诉您它有多大。用于比较两种均值的 Cohen d:

d = (μ₁ - μ₂) / σ_pooled
科恩的D 解释
0.2 小的
0.5 中等的
0.8 大的

d = 0.1 的高度显着 p 值意味着您检测到了真实但微不足道的影响 - 可能是因为您的样本量很大。始终报告效应量和 p 值。

卡方检验

卡方 (χ2) 检验询问:“观察到的计数是否与我们偶然预期的不同?”

χ² = Σ (Observed - Expected)² / Expected

当您的数据是分类的时使用它 - 例如,测试骰子是否公平,或者治疗结果是否独立于治疗组。

选择正确的测试

情况 测试
将一个均值与已知值进行比较 单样本 t 检验
比较两个独立的均值 两样本 t 检验
比较两个配对的平均值 配对t检验
比较 3+ 平均值 方差分析
比较 3+ 平均值(非正常) 克鲁斯卡尔-瓦利斯
两个连续变量之间的关联 皮尔逊/斯皮尔曼相关系数
比较类别比例 卡方
两组,非正态分布 曼惠特尼大学

常见错误

查看: 重复运行测试并在 p < 时停止。 0.05 会显着增大 I 类错误。在收集数据之前规划样本大小。

多重比较: 在 α = 0.05 下运行 20 次独立测试平均会产生 1 个误报。使用 Bonferroni 校正或控制错误发现率。

忽略假设: 大多数检验假设随机抽样、观察的独立性和(对于 t 检验)近似正态性。违反这些会破坏结果。

使用我们的Z 分数计算器样本量计算器t 检验计算器相关性计算器 来处理您自己的数据。