標準偏差は、統計におけるばらつきの尺度として最も広く使用されています。これにより、データが密にクラスター化されているか、広く分散しているかなど、典型的な値が平均からどの程度離れているかがわかります。一度手作業で計算を行うと、概念が直感的に理解できるようになります。
標準偏差からわかること
学生のクラスの試験の平均点が 70 で、標準偏差が 5 の場合、ほとんどの得点は 65 ~ 75 の間に収まります。標準偏差が 20 の場合、得点の範囲はさらに広くなり、50 ~ 90、さらにはそれ以上になります。
標準偏差が小さいことは一貫性を意味します。大きいものは変動性を意味します。
母集団とサンプルの標準偏差
2 つのバージョンがあり、適切なバージョンを選択することが重要です。
母標準偏差 (σ): 関心のあるグループのすべてのメンバーのデータがある場合に使用します。 n で割ります。
サンプル標準偏差 (s): データがより大きな母集団から抽出されたサンプルである場合に使用します。 n − 1 で除算します (サンプリングによって生じる不確実性を考慮したベッセル補正)。
実際には、完全な国勢調査や欠損メンバーのない管理されたデータセットを分析する場合を除き、ほとんどの場合、標本標準偏差を使用します。
段階的な計算
データセット: 4、7、13、2、1 (5 つの値のサンプル)
ステップ 1: 平均値を計算する
Mean (x̄) = (4 + 7 + 13 + 2 + 1) / 5 = 27 / 5 = 5.4
ステップ 2: 平均からの各偏差を見つける
各値から平均を減算します。
| 値(x) | 偏差 (x − x̄) |
|---|---|
| 4 | 4 − 5.4 = −1.4 |
| 7 | 7 − 5.4 = +1.6 |
| 13 | 13 − 5.4 = +7.6 |
| 2 | 2 − 5.4 = −3.4 |
| 1 | 1 − 5.4 = −4.4 |
ステップ 3: 各偏差を二乗する
二乗すると負の符号が除去され、より大きな偏差が強調されます。
| 偏差 | 二乗偏差 |
|---|---|
| −1.4 | 1.96 |
| +1.6 | 2.56 |
| +7.6 | 57.76 |
| −3.4 | 11.56 |
| −4.4 | 19.36 |
ステップ 4: 偏差の 2 乗を合計する
Sum = 1.96 + 2.56 + 57.76 + 11.56 + 19.36 = 93.2
ステップ 5: n − 1 で割る (サンプル標準偏差の場合)
Variance (s²) = 93.2 / (5 − 1) = 93.2 / 4 = 23.3
ステップ 6: 平方根を計算します。
Standard deviation (s) = √23.3 = 4.83
解釈: このデータセットの値は通常、平均の 5.4 から約 4.83 単位離れています。
書き出された式
サンプル標準偏差:
s = √[ Σ(x − x̄)² / (n − 1) ]
母標準偏差:
σ = √[ Σ(x − μ)² / n ]
ここで、μ (μ) は母集団の平均です。
経験則 (68-95-99.7 ルール)
正規分布に従うデータの場合、標準偏差は各範囲内のデータの割合と信頼できる関係があります。
| 範囲 | データの割合 |
|---|---|
| 平均値 ± 1 SD | ~68% |
| 平均値 ± 2 SD | ~95% |
| 平均±3SD | ~99.7% |
応用例: IQ スコアの平均は 100、SD は 15 です。
- 68% の人のスコアは 85 ~ 115 の間です
- 95% のスコアが 70 ~ 130 の間
- 99.7% のスコアが 55 ~ 145 の間
このルールは正規分布データにのみ適用されます。歪んだ分布または裾の重い分布の場合は、代わりにチェビシェフの不等式を使用します。
分散と標準偏差
分散 は二乗偏差 (上記のステップ 5) です。標準偏差はその平方根です。どちらも広がりを測定しますが、標準偏差は元のデータと同じ単位で表されるため、解釈しやすくなります。
データがキログラム単位の場合、標準偏差はキログラム単位になります。差異はキログラムの二乗単位で表示されますが、これを意味のあるように解釈するのは困難です。
一般的なアプリケーション
財務: 投資のボラティリティの測定。 SD が高く、日次収益が高い株はより不安定であり、潜在的な利益と損失の可能性が高くなります。
品質管理: 製造では SD を使用して、製品が公差内に収まるようにします。 SDが大きすぎる工程では不良品が多く発生します。
教育: テストスコアの標準化。 Z スコアは、スコアが平均よりどれだけ標準偏差上または下にあるかを示します: z = (x − 平均) / SD。
科学: 測定の不確実性を表現し、実験結果を比較します。
計算のショートカット
大規模なデータセットの場合は、偏差を個別に計算することを避ける計算式を使用します。
s² = [Σx² − (Σx)²/n] / (n − 1)
これは数学的には同等ですが、必要なデータのパスは 3 回ではなく 2 回だけです。
標準偏差計算ツール を使用して、入力したデータセットの SD、分散、および完全な内訳を計算します。