中位数是排序数据集中的中间值。它是集中趋势的三个主要度量之一(与均值和众数并列),当您的数据包含异常值或偏态值时,它特别有用。

中位数是什么?

中位数将数据集精确地分成两半:50% 的值低于中位数,50% 的值高于中位数。与平均值不同,中位数不受极值的影响。

示例: 50,000 美元的中位工资比少数收入数百万美元的高管拉高的 90,000 美元的平均工资更能说明典型员工的情况。

如何求中位数:奇数个值

第 1 步: 按升序对所有值进行排序(从小到大)。

第 2 步: 找到中间值 - 每侧具有相同数量的值。

示例: 数据集:7、3、5、1、9

  1. 排序:1, 3, 5, 7, 9 2.中间值为5(下面2个值,上面2个值)

中位数是 5

如何求中位数:偶数个值

当值的数量为偶数时,就没有一个中间值——只有两个。中位数是这两个中间值的平均值。

第 1 步: 按升序对所有值进行排序。

步骤 2: 确定两个中间值。

第 3 步: 将它们相加并除以 2。

示例: 数据集:4、8、6、2、10、3

  1. 排序:2, 3, 4, 6, 8, 10
  2. 中间的两个值是4和6
  3. 中位数 = (4 + 6) / 2 = 5

中位数是 5

寻找中间位置

对于任意 n 个值的数据集,中间位置是:

  • 奇数 n: 位置 = (n + 1) / 2
  • 偶数 n: 平均位置 n/2 和 (n/2) + 1
n 值 中间位置
5 位置3
7 位置4
10 位置 5 和 6 的平均值
12 位置 6 和 7 的平均值

示例:更大的数据集

数据集: 14、23、8、31、17、5、29、11、20、18、25、9

第 1 步: 计数:12 个值(偶数)

第 2 步: 排序:5、8、9、11、14、17、18、20、23、25、29、31

第 3 步: 中间位置是第 6 个和第 7 个值 = 17 和 18

步骤 4: 中位数 = (17 + 18) / 2 = 17.5

中位数与均值:您应该使用哪个?

情况 更好的衡量
数据存在异常值 中位数
数据存在偏差(例如收入) 中位数
对称分布 要么(均值更精确)
分类或序数数据 中位数
需要在进一步计算中使用 意思是

经验法则: 如果您的平均值和中位数相差很大,则您的数据存在偏差。将中位数报告为更具代表性的值。

分组数据的中位数

当数据以频率表或分组间隔显示时,您可以使用插值法估计中位数。

例子:

分数 频率 累计频率
0–20 3 3
21–40 7 10
41–60 12 22
61–80 8 30
81–100 5 35

总计:35 个值。中位数是第 18 个值(位置 = (35+1)/2 = 18)。

第 18 个值属于 41-60 组(该组的累积频率达到 22,之前为 10)。

Median ≈ L + [(n/2 − F) / f] × h

在哪里:

  • L = 中位类别下限 = 41
  • n = 总频率 = 35
  • F = 中位数类别之前的累积频率 = 10
  • f = 中位数类别的频率 = 12
  • h = 类宽度 = 20
Median ≈ 41 + [(17.5 − 10) / 12] × 20
        ≈ 41 + [7.5 / 12] × 20
        ≈ 41 + 12.5
        ≈ 53.5

加权中位数

当数据点具有不同的权重或重要性时,使用加权中位数——累积权重达到 50% 时的值。

现实世界的例子

房价: 一个城市的房价中位数比平均值更能代表“典型”房屋,而平均值可能会受到一些豪华房产的影响。

测试成绩: 如果大多数学生得分为 60-70,但少数学生得分为 100,则中位数分数比平均值更能提供信息。

响应时间: 在 Web 性能中,中值响应时间显示了典型的用户体验,而平均值可能会因偶尔的缓慢请求而偏离。

常见错误

不先排序 — 您必须先对数据进行排序,然后才能找到中间值。

位置相差一 — 对于 9 个值,中位数位于位置 5,而不是位置 4.5。

对偶数数据集使用平均值 — 对于偶数个值,始终对两个中间值求平均值。


继续阅读