中位数是排序数据集中的中间值。它是集中趋势的三个主要度量之一(与均值和众数并列),当您的数据包含异常值或偏态值时,它特别有用。
中位数是什么?
中位数将数据集精确地分成两半:50% 的值低于中位数,50% 的值高于中位数。与平均值不同,中位数不受极值的影响。
示例: 50,000 美元的中位工资比少数收入数百万美元的高管拉高的 90,000 美元的平均工资更能说明典型员工的情况。
如何求中位数:奇数个值
第 1 步: 按升序对所有值进行排序(从小到大)。
第 2 步: 找到中间值 - 每侧具有相同数量的值。
示例: 数据集:7、3、5、1、9
- 排序:1, 3, 5, 7, 9 2.中间值为5(下面2个值,上面2个值)
中位数是 5。
如何求中位数:偶数个值
当值的数量为偶数时,就没有一个中间值——只有两个。中位数是这两个中间值的平均值。
第 1 步: 按升序对所有值进行排序。
步骤 2: 确定两个中间值。
第 3 步: 将它们相加并除以 2。
示例: 数据集:4、8、6、2、10、3
- 排序:2, 3, 4, 6, 8, 10
- 中间的两个值是4和6
- 中位数 = (4 + 6) / 2 = 5
中位数是 5。
寻找中间位置
对于任意 n 个值的数据集,中间位置是:
- 奇数 n: 位置 = (n + 1) / 2
- 偶数 n: 平均位置 n/2 和 (n/2) + 1
| n 值 | 中间位置 |
|---|---|
| 5 | 位置3 |
| 7 | 位置4 |
| 10 | 位置 5 和 6 的平均值 |
| 12 | 位置 6 和 7 的平均值 |
示例:更大的数据集
数据集: 14、23、8、31、17、5、29、11、20、18、25、9
第 1 步: 计数:12 个值(偶数)
第 2 步: 排序:5、8、9、11、14、17、18、20、23、25、29、31
第 3 步: 中间位置是第 6 个和第 7 个值 = 17 和 18
步骤 4: 中位数 = (17 + 18) / 2 = 17.5
中位数与均值:您应该使用哪个?
| 情况 | 更好的衡量 |
|---|---|
| 数据存在异常值 | 中位数 |
| 数据存在偏差(例如收入) | 中位数 |
| 对称分布 | 要么(均值更精确) |
| 分类或序数数据 | 中位数 |
| 需要在进一步计算中使用 | 意思是 |
经验法则: 如果您的平均值和中位数相差很大,则您的数据存在偏差。将中位数报告为更具代表性的值。
分组数据的中位数
当数据以频率表或分组间隔显示时,您可以使用插值法估计中位数。
例子:
| 分数 | 频率 | 累计频率 |
|---|---|---|
| 0–20 | 3 | 3 |
| 21–40 | 7 | 10 |
| 41–60 | 12 | 22 |
| 61–80 | 8 | 30 |
| 81–100 | 5 | 35 |
总计:35 个值。中位数是第 18 个值(位置 = (35+1)/2 = 18)。
第 18 个值属于 41-60 组(该组的累积频率达到 22,之前为 10)。
Median ≈ L + [(n/2 − F) / f] × h
在哪里:
- L = 中位类别下限 = 41
- n = 总频率 = 35
- F = 中位数类别之前的累积频率 = 10
- f = 中位数类别的频率 = 12
- h = 类宽度 = 20
Median ≈ 41 + [(17.5 − 10) / 12] × 20
≈ 41 + [7.5 / 12] × 20
≈ 41 + 12.5
≈ 53.5
加权中位数
当数据点具有不同的权重或重要性时,使用加权中位数——累积权重达到 50% 时的值。
现实世界的例子
房价: 一个城市的房价中位数比平均值更能代表“典型”房屋,而平均值可能会受到一些豪华房产的影响。
测试成绩: 如果大多数学生得分为 60-70,但少数学生得分为 100,则中位数分数比平均值更能提供信息。
响应时间: 在 Web 性能中,中值响应时间显示了典型的用户体验,而平均值可能会因偶尔的缓慢请求而偏离。
常见错误
不先排序 — 您必须先对数据进行排序,然后才能找到中间值。
位置相差一 — 对于 9 个值,中位数位于位置 5,而不是位置 4.5。
对偶数数据集使用平均值 — 对于偶数个值,始终对两个中间值求平均值。