中央値は、並べ替えられたデータセット内の中央の値です。これは、平均値や最頻値と並ぶ中心傾向の 3 つの主要な尺度の 1 つであり、データに外れ値や偏った値が含まれている場合に特に役立ちます。
中央値とは何ですか?
中央値はデータセットをちょうど半分に分割します。つまり、値の 50% がその値を下回り、50% がそれを上回ることになります。平均値とは異なり、中央値は極端な値の影響を受けません。
例: 平均給与 50,000 ドルの方が、何百万ドルも稼いでいる一握りの経営幹部が引き上げた平均給与 90,000 ドルよりも、一般的な労働者についてよくわかります。
中央値を見つける方法: 奇数の値
ステップ 1: すべての値を昇順 (最小値から最大値) に並べ替えます。
ステップ 2: 中央の値、つまり両側の値の数が等しい値を見つけます。
例: データセット: 7、3、5、1、9
- ソート: 1、3、5、7、9
- 中央の値は 5 (下に 2 つの値、上に 2 つの値)
中央値は 5 です。
中央値を求める方法: 偶数の値
値の数が偶数である場合、中間の値は 1 つではなく、2 つ存在します。中央値は、これら 2 つの中間値の平均です。
ステップ 1: すべての値を昇順に並べ替えます。
ステップ 2: 中央の 2 つの値を特定します。
ステップ 3: それらを足し合わせて 2 で割ります。
例: データセット: 4、8、6、2、10、3
- 並べ替え: 2、3、4、6、8、10
- 中央の 2 つの値は 4 と 6 です
- 中央値 = (4 + 6) / 2 = 5
中央値は 5 です。
中間位置を見つける
n 値のデータセットの場合、中間位置は次のようになります。
- 奇数 n: 位置 = (n + 1) / 2
- 偶数 n: 平均位置 n/2 および (n/2) + 1
| n値 | ミドルポジション |
|---|---|
| 5 | ポジション 3 |
| 7 | ポジション 4 |
| 10 | 5位と6位の平均 |
| 12 | 6位と7位の平均 |
実際の例: より大きなデータセット
データセット: 14、23、8、31、17、5、29、11、20、18、25、9
ステップ 1: カウント: 12 個の値 (偶数)
ステップ 2: 並べ替え: 5、8、9、11、14、17、18、20、23、25、29、31
ステップ 3: 中間の位置は 6 番目と 7 番目の値 = 17 と 18 です。
ステップ 4: 中央値 = (17 + 18) / 2 = 17.5
中央値と平均値: どちらを使用する必要がありますか?
| 状況 | より良い対策 |
|---|---|
| データに外れ値がある | 中央値 |
| データに偏りがある(収入など) | 中央値 |
| 対称分布 | いずれか (平均値の方が正確です) |
| カテゴリまたは順序データ | 中央値 |
| さらなる計算で使用する必要がある | 平均 |
経験則: 平均値と中央値が大きく異なる場合、データは偏っています。より代表的な値として中央値を報告します。
グループ化されたデータの中央値
データが度数表またはグループ化された間隔で表されている場合、内挿を使用して中央値を推定できます。
例:
| スコア | 頻度 | 累積頻度 |
|---|---|---|
| 0~20 | 3 | 3 |
| 21–40 | 7 | 10 |
| 41–60 | 12 | 22 |
| 61–80 | 8 | 30 |
| 81–100 | 5 | 35 |
合計: 35 個の値。中央値は 18 番目の値です (位置 = (35+1)/2 = 18)。
18 番目の値は 41 ~ 60 のグループに分類されます (累積頻度は、その前は 10 でしたが、このグループでは 22 に達します)。
Median ≈ L + [(n/2 − F) / f] × h
どこ:
- L = 中央クラスの下限 = 41
- n = 合計頻度 = 35
- F = 中央値クラス前の累積頻度 = 10
- f = 中央クラスの頻度 = 12
- h = クラス幅 = 20
Median ≈ 41 + [(17.5 − 10) / 12] × 20
≈ 41 + [7.5 / 12] × 20
≈ 41 + 12.5
≈ 53.5
加重中央値
データ ポイントの重みや重要性が異なる場合は、重み付き中央値 (累積重みが 50% に達する値) を使用します。
実際の例
住宅価格: 都市の住宅価格の中央値は、少数の高級物件によって偏る可能性がある平均値よりも「典型的な」住宅をよく表しています。
テストのスコア: ほとんどの生徒が 60 ~ 70 点を獲得しているが、少数の生徒が 100 点を獲得している場合、平均点よりも中央値の方が有益です。
応答時間: Web パフォーマンスでは、応答時間の中央値は典型的なユーザーの体験を示しますが、時折遅いリクエストによって平均値が狂うこともあります。
よくある間違い
最初に並べ替えない — 中央の値を見つける前にデータを並べ替える必要があります。
位置で 1 ずつオフ — 9 つの値の場合、中央値は位置 4.5 ではなく位置 5 にあります。
偶数のデータセットに平均を使用する — 偶数の値の場合は、常に中央の 2 つの値を平均します。