适合初学者的统计：均值、SD、假设检验等

统计学是不确定性的语言——它是让我们从不完整的信息中得出结论的工具。无论您是在阅读新闻民意调查、解释临床试验结果，还是分析自己的数据，理解这些核心概念都将使您成为一个更具批判性的读者。

描述性统计：汇总数据

在分析数据之前，您需要对其进行描述。关键指标是集中趋势（中间在哪里？）和散布（数据的变化程度如何？）。

均值、中位数和众数

算术平均值是总和除以计数。这是最熟悉的平均值，但对异常值高度敏感。

中位数是数据排序时位于中间的值。它更加稳健——单个极值不会对其产生太大影响。

众数是最常见的值。对于分类数据有用；对于连续测量不太有用。

数据集	意思是	中位数	模式
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

请注意一个极值 (100) 如何显着改变平均值，但中位数保持不变。这就是为什么房价统计数据使用中位数——少数价值数百万英镑的豪宅会让平均价格产生误导。

标准差和方差

方差衡量与均值的平均平方偏差：

σ² = Σ(xi - x̄)² / n

标准差是方差的平方根——它的单位与原始数据相同，这使得它可以解释：

σ = √[Σ(xi - x̄)² / n]

正态分布数据的 68-95-99.7 规则：

68% 的值落在平均值的 1 个标准差范围内
95% 在 2 个标准差以内
99.7% 在 3 个标准差以内

注：使用 n 作为总体标准差的分母；使用 n−1 进行样本估计（这称为贝塞尔校正并校正样本中发生的轻微低估）。

正态分布

正态（高斯）分布是自然界和统计中随处可见的钟形曲线。它由两个参数完整描述：平均值 (μ) 和标准差 (σ)。

z-score 将任何值转换为“与平均值的标准差有多少”：

z = (x - μ) / σ

z 分数 1.96 对应于第 97.5 个百分位 — 只有 2.5% 的分布位于该值之上。由于置信区间的原因，这种情况经常出现在统计数据中。

中心极限定理是正态分布如此重要的原因：无论原始总体的形状如何，随着样本量的增加，样本均值的分布会接近正态分布。这就是为什么即使原始数据不呈正态分布，许多统计检验也假设呈正态性。

置信区间

95% 置信区间并不意味着“真实值有 95% 的概率在此范围内”。这意味着：“如果我们多次重复此采样过程，我们计算的 95% 的间隔将包含真实值。”

对于大小为 n 的样本中的比例 p：

CI = p ± z × √(p(1-p)/n)

对于 95% 的置信度，z = 1.96。对于 99%，z = 2.576。

误差幅度只是±部分：z × √(p(1-p)/n)。当民意调查报告“±3 个百分点”时，这就是误差幅度。

假设检验

每个假设检验都遵循相同的结构：

H₀（零假设）： 默认值 — 通常“没有影响”、“没有差异”、“没有关系”
H₁（替代假设）： 你想要证明什么
检验统计量： 根据数据计算得出的数字，用于衡量数据与 H₀ 的距离
p 值： 如果 H₀ 为真，则观察到至少此极端结果的概率

p 值解释

p 值为 0.03 意味着：“如果确实没有影响，我们只有 3% 的概率会偶然看到如此极端的数据。”这通常被认为足够重要以拒绝 H₀。

什么p < 0.05 并不意味着：

这并不意味着该效果有 95% 的可能性是真实的
这并不意味着效果实际上很重要
这并不意味着 H₀ 是假的

第一类和第二类错误：

	H₀ 为真	H₀ 为假
拒绝H₀	I 类错误（误报）	正确的
无法拒绝H₀	正确的	II 类错误（假阴性）

α（显着性水平）= I 类错误率，通常为 0.05 β = II 类错误率；功效 = 1 − β，通常目标为 0.80

t 检验

t 检验比较组间的平均值。双样本 t 统计量为：

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

一个大|t|意味着各组相对于组内变异性而言相距甚远。与具有适当自由度的临界值进行比较（或计算 p 值）。

何时使用它： 当数据近似正态或 n > 时，比较独立组的两个平均值。 30.

＃＃相关性

Pearson r 衡量两个变量之间线性关系的强度：

r = +1：完美的正线性关系
r = 0：没有线性关系
r = −1：完美负线性关系

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R²（r 平方）告诉您由 X 解释的 Y 中方差的比例。如果 r = 0.7，则 R² = 0.49 — X 解释了 Y 中 49% 的变异。

Spearman 的 ρ (rho) 执行相同的操作，但使用排名而不是原始值，使其对异常值具有鲁棒性并适合序数数据。

**记住：**相关性≠因果关系。冰淇淋销量和溺水率密切相关（均在夏季达到高峰），但冰淇淋不会导致溺水。

效果大小

统计显着性告诉您效果是否真实； 效应大小告诉您它有多大。用于比较两种均值的 Cohen d：

d = (μ₁ - μ₂) / σ_pooled

科恩的D	解释
0.2	小的
0.5	中等的
0.8	大的

d = 0.1 的高度显着 p 值意味着您检测到了真实但微不足道的影响 - 可能是因为您的样本量很大。始终报告效应量和 p 值。

卡方检验

卡方 (χ2) 检验询问：“观察到的计数是否与我们偶然预期的不同？”

χ² = Σ (Observed - Expected)² / Expected

当您的数据是分类的时使用它 - 例如，测试骰子是否公平，或者治疗结果是否独立于治疗组。

选择正确的测试

情况	测试
将一个均值与已知值进行比较	单样本 t 检验
比较两个独立的均值	两样本 t 检验
比较两个配对的平均值	配对t检验
比较 3+ 平均值	方差分析
比较 3+ 平均值（非正常）	克鲁斯卡尔-瓦利斯
两个连续变量之间的关联	皮尔逊/斯皮尔曼相关系数
比较类别比例	卡方
两组，非正态分布	曼惠特尼大学

常见错误

查看： 重复运行测试并在 p < 时停止。 0.05 会显着增大 I 类错误。在收集数据之前规划样本大小。

多重比较： 在 α = 0.05 下运行 20 次独立测试平均会产生 1 个误报。使用 Bonferroni 校正或控制错误发现率。

忽略假设： 大多数检验假设随机抽样、观察的独立性和（对于 t 检验）近似正态性。违反这些会破坏结果。

使用我们的Z 分数计算器、样本量计算器、t 检验计算器和相关性计算器来处理您自己的数据。