方差衡量一组数字与其平均值的分布程度。它是统计学中最重要的概念之一——在金融中用于衡量投资风险,在科学中用于评估实验一致性,以及在日常数据分析中。

什么是方差?

方差是与平均值的平方差的平均值。低方差意味着数据点紧密聚集在平均值周围。高方差意味着它们分布广泛。

有两种类型:

  • 总体方差 (σ²) — 当您拥有整个总体的数据时使用
  • 样本方差 (s²) — 当您的数据是来自较大总体的样本时使用

在实践中,您几乎总是会使用样本方差。

方差公式

总体方差

σ² = Σ(xᵢ - μ)² / N

在哪里:

  • xᵢ = 每个数据点
  • μ = 总体平均值
  • N = 数据点的数量

样本方差

s² = Σ(xᵢ - x̄)² / (n - 1)

在哪里:

  • x̄ = 样本均值
  • n - 1 = 自由度(贝塞尔修正)

样本方差中的 CODE0 纠正了样本倾向于低估总体真实分布的事实。

分步示例

数据集: 4、8、6、5、3、2、8、9、2、5

第 1 步:计算平均值

Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
     = 52 / 10
     = 5.2

第 2 步:从每个值中减去平均值并计算结果的平方

价值 值 - 平均值 (值 - 平均值)²
4 4 − 5.2 = −1.2 1.44
8 8 − 5.2 = 2.8 7.84
6 6 − 5.2 = 0.8 0.64
5 5 − 5.2 = −0.2 0.04
3 3 − 5.2 = −2.2 4.84
2 2 − 5.2 = −3.2 10.24
8 8 − 5.2 = 2.8 7.84
9 9 − 5.2 = 3.8 14.44
2 2 − 5.2 = −3.2 10.24
5 5 − 5.2 = −0.2 0.04

第 3 步:求平方差的总和

Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
             = 57.6

步骤 4:除以 n − 1(样本方差)

s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4

样本方差为 6.4

方差与标准差

标准差就是方差的平方根:

s = √s² = √6.4 ≈ 2.53

标准差以与原始数据相同的单位表示,使其更易于解释。如果您的数据以千克为单位,则标准差以千克为单位。差异以千克²为单位。这就是为什么标准偏差更常被报告——但方差在许多统计计算中被使用。

总体与样本:何时使用每个样本

情况 使用
您拥有该组中每个成员的数据 总体方差 (÷ N)
您的数据是来自更大群体的样本 样本方差 (÷ n − 1)
与其他统计测试的比较 通常样本方差
您的数据集是完整的图片 总体方差

如有疑问,请使用样本方差。 大多数现实世界的数据集都是样本。

为什么我们要消除差异

您可能想知道:为什么不直接平均与平均值的原始差异呢?

问题在于正偏差和负偏差相互抵消。对于上面的数据集,有些值高于平均值,有些低于平均值。如果你把它们全部加起来而不进行平方,你总是得到零。

平方消除了负号,因此所有偏差对总价差都有积极贡献。

实际应用

金融: 投资组合方差衡量投资风险。方差为 0.04 的投资组合的风险低于方差为 0.16 的投资组合——即使两者具有相同的预期回报。

质量控制: 低方差的制造过程可产生更一致的输出。高方差意味着不可预测的结果。

科学: 在实验中,重复测量之间的高方差表明测量误差或不受控制的变量。

体育分析: 球员表现方差告诉您球员是否稳定(低方差)或不稳定(高方差)。

常见错误

使用 N 而不是 n − 1 作为样本 — 这低估了真实总体方差。始终使用 n − 1 作为样本数据。

忘记平方 - 一个常见的错误是对原始差值而不是平方差进行平均。

混淆方差与范围 — 范围只是最大值减去最小值。方差考虑了所有数据点,而不仅仅是极端情况。

快速参考

公式 何时使用
代码0 人口满
代码0 总体样本
代码0 获取标准差

继续阅读