中央値は、並べ替えられたデータセット内の中央の値です。これは、平均値や最頻値と並ぶ中心傾向の 3 つの主要な尺度の 1 つであり、データに外れ値や偏った値が含まれている場合に特に役立ちます。

中央値とは何ですか?

中央値はデータセットをちょうど半分に分割します。つまり、値の 50% がその値を下回り、50% がそれを上回ることになります。平均値とは異なり、中央値は極端な値の影響を受けません。

例: 平均給与 50,000 ドルの方が、何百万ドルも稼いでいる一握りの経営幹部が引き上げた平均給与 90,000 ドルよりも、一般的な労働者についてよくわかります。

中央値を見つける方法: 奇数の値

ステップ 1: すべての値を昇順 (最小値から最大値) に並べ替えます。

ステップ 2: 中央の値、つまり両側の値の数が等しい値を見つけます。

例: データセット: 7、3、5、1、9

  1. ソート: 1、3、5、7、9
  2. 中央の値は 5 (下に 2 つの値、上に 2 つの値)

中央値は 5 です。

中央値を求める方法: 偶数の値

値の数が偶数である場合、中間の値は 1 つではなく、2 つ存在します。中央値は、これら 2 つの中間値の平均です。

ステップ 1: すべての値を昇順に並べ替えます。

ステップ 2: 中央の 2 つの値を特定します。

ステップ 3: それらを足し合わせて 2 で割ります。

例: データセット: 4、8、6、2、10、3

  1. 並べ替え: 2、3、4、6、8、10
  2. 中央の 2 つの値は 4 と 6 です
  3. 中央値 = (4 + 6) / 2 = 5

中央値は 5 です。

中間位置を見つける

n 値のデータセットの場合、中間位置は次のようになります。

  • 奇数 n: 位置 = (n + 1) / 2
  • 偶数 n: 平均位置 n/2 および (n/2) + 1
n値 ミドルポジション
5 ポジション 3
7 ポジション 4
10 5位と6位の平均
12 6位と7位の平均

実際の例: より大きなデータセット

データセット: 14、23、8、31、17、5、29、11、20、18、25、9

ステップ 1: カウント: 12 個の値 (偶数)

ステップ 2: 並べ替え: 5、8、9、11、14、17、18、20、23、25、29、31

ステップ 3: 中間の位置は 6 番目と 7 番目の値 = 17 と 18 です。

ステップ 4: 中央値 = (17 + 18) / 2 = 17.5

中央値と平均値: どちらを使用する必要がありますか?

状況 より良い対策
データに外れ値がある 中央値
データに偏りがある(収入など) 中央値
対称分布 いずれか (平均値の方が正確です)
カテゴリまたは順序データ 中央値
さらなる計算で使用する必要がある 平均

経験則: 平均値と中央値が大きく異なる場合、データは偏っています。より代表的な値として中央値を報告します。

グループ化されたデータの中央値

データが度数表またはグループ化された間隔で表されている場合、内挿を使用して中央値を推定できます。

例:

スコア 頻度 累積頻度
0~20 3 3
21–40 7 10
41–60 12 22
61–80 8 30
81–100 5 35

合計: 35 個の値。中央値は 18 番目の値です (位置 = (35+1)/2 = 18)。

18 番目の値は 41 ~ 60 のグループに分類されます (累積頻度は、その前は 10 でしたが、このグループでは 22 に達します)。

Median ≈ L + [(n/2 − F) / f] × h

どこ:

  • L = 中央クラスの下限 = 41
  • n = 合計頻度 = 35
  • F = 中央値クラス前の累積頻度 = 10
  • f = 中央クラスの頻度 = 12
  • h = クラス幅 = 20
Median ≈ 41 + [(17.5 − 10) / 12] × 20
        ≈ 41 + [7.5 / 12] × 20
        ≈ 41 + 12.5
        ≈ 53.5

加重中央値

データ ポイントの重みや重要性が異なる場合は、重み付き中央値 (累積重みが 50% に達する値) を使用します。

実際の例

住宅価格: 都市の住宅価格の中央値は、少数の高級物件によって偏る可能性がある平均値よりも「典型的な」住宅をよく表しています。

テストのスコア: ほとんどの生徒が 60 ~ 70 点を獲得しているが、少数の生徒が 100 点を獲得している場合、平均点よりも中央値の方が有益です。

応答時間: Web パフォーマンスでは、応答時間の中央値は典型的なユーザーの体験を示しますが、時折遅いリクエストによって平均値が狂うこともあります。

よくある間違い

最初に並べ替えない — 中央の値を見つける前にデータを並べ替える必要があります。

位置で 1 ずつオフ — 9 つの値の場合、中央値は位置 4.5 ではなく位置 5 にあります。

偶数のデータセットに平均を使用する — 偶数の値の場合は、常に中央の 2 つの値を平均します。


次を読む