方差衡量一组数字与其平均值的分布程度。它是统计学中最重要的概念之一——在金融中用于衡量投资风险,在科学中用于评估实验一致性,以及在日常数据分析中。
什么是方差?
方差是与平均值的平方差的平均值。低方差意味着数据点紧密聚集在平均值周围。高方差意味着它们分布广泛。
有两种类型:
- 总体方差 (σ²) — 当您拥有整个总体的数据时使用
- 样本方差 (s²) — 当您的数据是来自较大总体的样本时使用
在实践中,您几乎总是会使用样本方差。
方差公式
总体方差
σ² = Σ(xᵢ - μ)² / N
在哪里:
- xᵢ = 每个数据点
- μ = 总体平均值
- N = 数据点的数量
样本方差
s² = Σ(xᵢ - x̄)² / (n - 1)
在哪里:
- x̄ = 样本均值
- n - 1 = 自由度(贝塞尔修正)
样本方差中的 CODE0 纠正了样本倾向于低估总体真实分布的事实。
分步示例
数据集: 4、8、6、5、3、2、8、9、2、5
第 1 步:计算平均值
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
第 2 步:从每个值中减去平均值并计算结果的平方
| 价值 | 值 - 平均值 | (值 - 平均值)² |
|---|---|---|
| 4 | 4 − 5.2 = −1.2 | 1.44 |
| 8 | 8 − 5.2 = 2.8 | 7.84 |
| 6 | 6 − 5.2 = 0.8 | 0.64 |
| 5 | 5 − 5.2 = −0.2 | 0.04 |
| 3 | 3 − 5.2 = −2.2 | 4.84 |
| 2 | 2 − 5.2 = −3.2 | 10.24 |
| 8 | 8 − 5.2 = 2.8 | 7.84 |
| 9 | 9 − 5.2 = 3.8 | 14.44 |
| 2 | 2 − 5.2 = −3.2 | 10.24 |
| 5 | 5 − 5.2 = −0.2 | 0.04 |
第 3 步:求平方差的总和
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
步骤 4:除以 n − 1(样本方差)
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
样本方差为 6.4。
方差与标准差
标准差就是方差的平方根:
s = √s² = √6.4 ≈ 2.53
标准差以与原始数据相同的单位表示,使其更易于解释。如果您的数据以千克为单位,则标准差以千克为单位。差异以千克²为单位。这就是为什么标准偏差更常被报告——但方差在许多统计计算中被使用。
总体与样本:何时使用每个样本
| 情况 | 使用 |
|---|---|
| 您拥有该组中每个成员的数据 | 总体方差 (÷ N) |
| 您的数据是来自更大群体的样本 | 样本方差 (÷ n − 1) |
| 与其他统计测试的比较 | 通常样本方差 |
| 您的数据集是完整的图片 | 总体方差 |
如有疑问,请使用样本方差。 大多数现实世界的数据集都是样本。
为什么我们要消除差异
您可能想知道:为什么不直接平均与平均值的原始差异呢?
问题在于正偏差和负偏差相互抵消。对于上面的数据集,有些值高于平均值,有些低于平均值。如果你把它们全部加起来而不进行平方,你总是得到零。
平方消除了负号,因此所有偏差对总价差都有积极贡献。
实际应用
金融: 投资组合方差衡量投资风险。方差为 0.04 的投资组合的风险低于方差为 0.16 的投资组合——即使两者具有相同的预期回报。
质量控制: 低方差的制造过程可产生更一致的输出。高方差意味着不可预测的结果。
科学: 在实验中,重复测量之间的高方差表明测量误差或不受控制的变量。
体育分析: 球员表现方差告诉您球员是否稳定(低方差)或不稳定(高方差)。
常见错误
使用 N 而不是 n − 1 作为样本 — 这低估了真实总体方差。始终使用 n − 1 作为样本数据。
忘记平方 - 一个常见的错误是对原始差值而不是平方差进行平均。
混淆方差与范围 — 范围只是最大值减去最小值。方差考虑了所有数据点,而不仅仅是极端情况。
快速参考
| 公式 | 何时使用 |
|---|---|
| 代码0 | 人口满 |
| 代码0 | 总体样本 |
| 代码0 | 获取标准差 |