分散は、一連の数値が平均からどの程度広がっているかを測定します。これは統計における最も重要な概念の 1 つであり、投資リスクを測定するために金融で使用され、実験の一貫性を評価するために科学で使用され、日常のデータ分析でも使用されます。
分散とは何ですか?
分散は、平均との差の二乗の平均です。分散が低いということは、データ ポイントが平均の周囲に密に集まっていることを意味します。分散が大きいということは、それらが広範囲に広がっていることを意味します。
次の 2 つのタイプがあります。
- 母集団分散 (σ²) — 母集団全体のデータがある場合に使用されます。
- サンプル分散 (s²) — データがより大きな母集団からのサンプルである場合に使用されます
実際には、ほとんどの場合、標本分散を使用することになります。
分散の公式
母集団の分散
σ² = Σ(xᵢ - μ)² / N
どこ:
- xᵢ = 各データポイント
- μ = 母集団の平均
- N = データポイントの数
サンプルの分散
s² = Σ(xᵢ - x̄)² / (n - 1)
どこ:
- x̄ = サンプル平均
- n - 1 = 自由度 (ベッセル補正)
標本分散の CODE0 は、標本が母集団の真の広がりを過小評価する傾向があるという事実を補正します。
段階的な例
データセット: 4、8、6、5、3、2、8、9、2、5
ステップ 1: 平均を計算します
Mean = (4 + 8 + 6 + 5 + 3 + 2 + 8 + 9 + 2 + 5) / 10
= 52 / 10
= 5.2
ステップ 2: 各値から平均を引き、結果を 2 乗します
| 価値 | 値 - 平均 | (値 − 平均)² |
|---|---|---|
| 4 | 4 − 5.2 = −1.2 | 1.44 |
| 8 | 8 − 5.2 = 2.8 | 7.84 |
| 6 | 6 − 5.2 = 0.8 | 0.64 |
| 5 | 5 − 5.2 = −0.2 | 0.04 |
| 3 | 3 − 5.2 = −2.2 | 4.84 |
| 2 | 2 − 5.2 = −3.2 | 10.24 |
| 8 | 8 − 5.2 = 2.8 | 7.84 |
| 9 | 9 − 5.2 = 3.8 | 14.44 |
| 2 | 2 − 5.2 = −3.2 | 10.24 |
| 5 | 5 − 5.2 = −0.2 | 0.04 |
ステップ 3: 差の二乗を合計します
Σ(xᵢ − x̄)² = 1.44 + 7.84 + 0.64 + 0.04 + 4.84 + 10.24 + 7.84 + 14.44 + 10.24 + 0.04
= 57.6
ステップ 4: n − 1 (サンプル分散) で除算します
s² = 57.6 / (10 − 1) = 57.6 / 9 = 6.4
標本分散は 6.4 です。
分散と標準偏差
標準偏差は単に分散の平方根です。
s = √s² = √6.4 ≈ 2.53
標準偏差は元のデータと同じ単位で表されるため、解釈が容易になります。データがキログラム単位の場合、標準偏差はキログラム単位になります。差異はキログラム²単位です。これが、標準偏差がより一般的に報告される理由ですが、分散は多くの統計計算で使用されます。
母集団とサンプル: それぞれをいつ使用するか
| 状況 | 使用 |
|---|---|
| グループのメンバー全員のデータがある | 母集団分散 (÷ N) |
| あなたのデータはより大きなグループからのサンプルです | サンプル分散 (÷ n − 1) |
| 他の統計テストとの比較 | 通常は標本分散 |
| データセットが全体像を示します | 母集団分散 |
疑わしい場合は、サンプル分散を使用してください。 現実世界のデータセットのほとんどはサンプルです。
違いを二乗する理由
疑問に思うかもしれません。なぜ平均値との生の差を平均化しないのですか?
問題は、正の偏差と負の偏差が相殺されてしまうことです。上記のデータセットでは、一部の値は平均を上回っており、一部の値は平均を下回っています。これらを二乗せずに合計すると、常にゼロになります。
二乗により負の符号が除去されるため、すべての偏差がスプレッド全体にプラスの影響を与えます。
実際の応用例
財務: ポートフォリオの差異は投資リスクを測定します。分散が 0.04 のポートフォリオは、たとえ両方の期待リターンが同じであっても、分散が 0.16 のポートフォリオよりもリスクが低くなります。
品質管理: ばらつきの少ない製造プロセスにより、より一貫した生産物が生成されます。分散が大きいということは、結果が予測できないことを意味します。
科学: 実験において、繰り返された測定間の大きな差異は、測定誤差または制御されていない変数を示唆しています。
スポーツ分析: プレーヤーのパフォーマンスの分散は、プレーヤーが一貫している (分散が低い) か、または縞模様がある (分散が高い) かを示します。
よくある間違い
サンプルに n − 1 の代わりに N を使用する — これにより、真の母集団分散が過小評価されます。サンプルデータには常に n − 1 を使用します。
二乗を忘れる — よくある間違いは、差の二乗ではなく生の差を平均してしまうことです。
範囲による混乱を招く分散 — 範囲は、単純に最大値から最小値を引いたものです。分散は、極値だけでなく、すべてのデータ ポイントを考慮します。
クイックリファレンス
| 式 | いつ使用するか |
|---|---|
| コード0 | 全人口 |
| コード0 | 母集団からのサンプル |
| コード0 | 標準偏差を取得するには |