初心者向けの統計: 平均値、標準偏差、仮説検定など

統計は不確実性の言語であり、不完全な情報から結論を導き出すためのツールです。ニュース世論調査を読んでいる場合でも、臨床試験結果を解釈している場合でも、自分のデータを分析している場合でも、これらの核となる概念を理解することで、より批判的な読者になれるでしょう。

記述統計: データの要約

データを分析する前に、データを説明する必要があります。主要な尺度は、中心傾向 (中央はどこですか?) と 広がり (データのばらつきはどれくらいですか?) です。

平均値、中央値、最頻値

算術平均 は、合計をカウントで割ったものです。これは最もよく知られた平均ですが、外れ値に対して非常に敏感です。

中央値 は、データを並べ替えたときの中央の値です。これはより堅牢です。単一の極端な値によって大きく変動することはありません。

mode は最も頻繁に使用される値です。カテゴリデータに役立ちます。連続測定にはあまり役に立ちません。

データセット	平均	中央値	モード
2, 4, 4, 6, 8	4.8	4	4
2, 4, 4, 6, 100	23.2	4	4

1 つの極値 (100) によって平均が劇的に変化しますが、中央値は変更されないことに注目してください。これが、住宅価格の統計で中央値が使用される理由です。数百万ポンドの邸宅が数件あると、平均価格が誤解を招くことになります。

標準偏差と分散

分散は、平均からの平均二乗偏差を測定します。

σ² = Σ(xi - x̄)² / n

標準偏差は分散の平方根です。元のデータと同じ単位であるため、解釈可能です。

σ = √[Σ(xi - x̄)² / n]

正規分布データの 68-95-99.7 ルール:

値の 68% が平均値の 1 標準偏差以内に収まります
95% が 2 標準偏差以内
99.7% 3 標準偏差以内

注意: 母標準偏差の分母には n を使用します。サンプル推定値には n−1 を使用します (これはベッセル補正と呼ばれ、サンプルで発生するわずかな過小評価を補正します)。

正規分布

正規 (ガウス) 分布は、自然界や統計学のいたるところに現れる釣鐘型の曲線です。これは、平均 (μ) と標準偏差 (σ) という 2 つのパラメーターによって完全に記述されます。

Z スコア は、任意の値を「平均からの標準偏差の数」に変換します。

z = (x - μ) / σ

Z スコア 1.96 は 97.5 パーセンタイルに対応します。この値を超えると分布の 2.5% のみが存在します。これは信頼区間があるため、統計に常に現れます。

中心極限定理は、正規分布が非常に重要である理由です。元の母集団の形状に関係なく、サンプルサイズが増加するにつれてサンプル平均の分布は正規性に近づきます。これが、生データが正規分布していない場合でも、非常に多くの統計検定が正規性を仮定する理由です。

信頼区間

95% 信頼区間は、「真の値がこの範囲内にある確率が 95% である」という意味ではありません。これは、「このサンプリングプロセスを何度も繰り返した場合、計算した間隔の 95% に真の値が含まれることになる」ことを意味します。

サイズ n のサンプルからの割合 p の場合:

CI = p ± z × √(p(1-p)/n)

95% の信頼性の場合、z = 1.96。 99% の場合、z = 2.576。

誤差範囲 は ± の部分: z × √(p(1-p)/n) です。世論調査で「±3 パーセントポイント」と報告された場合、これは誤差の範囲です。

仮説検証

すべての仮説検定は同じ構造に従います。

H₀ (帰無仮説): デフォルト — 通常は「影響なし」、「差なし」、「関係なし」
H₁ (対立仮説): 証拠を示そうとしているもの
テスト統計量: データが H₀ からどれだけ離れているかを測定する、データから計算された数値。
p 値: H₀ が真の場合に少なくともこの極端な結果が観察される確率

p値の説明

p 値 0.03 は、「本当に影響がなかった場合、この極端なデータが偶然現れるのは 3% の確率だけである」ことを意味します。これは通常、H₀ を拒否するのに十分な重要性があると考えられます。

何p <; 0.05 は次のことを意味しません:

95% の確率で効果が本物であるという意味ではありません
効果が実質的に重要であるという意味ではありません
H₀が偽であるという意味ではありません

タイプ I およびタイプ II エラー:

	H₀は真実です	H₀ は偽です
H₀ を拒否	タイプ I エラー (偽陽性)	正しい
H₀ の拒否に失敗しました	正しい	タイプ II エラー (偽陰性)

α (有意水準) = タイプ I 過誤率、通常は 0.05 β = タイプ II エラー率。検出力 = 1 − β、通常は 0.80 を目標とします。

t 検定

t 検定はグループ間の平均を比較します。 2 サンプルの t 統計量は次のとおりです。

t = (x̄₁ - x̄₂) / √(s₁²/n₁ + s₂²/n₂)

大きな |t|これは、グループ内の変動に比べてグループが大きく離れていることを意味します。適切な自由度を使用して臨界値と比較 (または p 値を計算) します。

いつ使用するか: データがほぼ正常であるか、n > である場合に、独立したグループの 2 つの平均を比較します。 30.

相関関係

ピアソンの r は、2 つの変数間の線形関係の強さを測定します。

r = +1: 完全な正の線形関係
r = 0: 線形関係なし
r = −1: 完全な負の線形関係

r = Σ(xi - x̄)(yi - ȳ) / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]

R² (r 二乗) は、X によって説明される Y の分散の割合を示します。r = 0.7 の場合、R² = 0.49 — X は Y の分散の 49% を説明します。

Spearman の ρ (rho) も同じことを行いますが、生の値ではなくランクを使用するため、外れ値に対して堅牢であり、順序データに適しています。

覚えておいてください: 相関関係≠因果関係。アイスクリームの売上と溺死率には強い相関関係があります（どちらも夏にピークになります）が、アイスクリームが溺死を引き起こすわけではありません。

効果の大きさ

統計的有意性は、効果が本物かどうかを示します。 効果サイズ は、その大きさを示します。 2 つの平均を比較するための Cohen の d:

d = (μ₁ - μ₂) / σ_pooled

コーエンのD	解釈
0.2	小さい
0.5	中くらい
0.8	大きい

d = 0.1 の非常に有意な p 値は、実際にはあるが些細な効果が検出されたことを意味します。おそらく、サンプルが膨大であったためです。常に p 値とともに効果量を報告します。

カイ二乗検定

カイ 2 乗 (χ²) 検定は、「観測されたカウントは、偶然に予想されるものと異なるか?」と尋ねます。

χ² = Σ (Observed - Expected)² / Expected

データがカテゴリー的な場合に使用します。たとえば、サイコロが公平かどうか、または治療結果が治療グループから独立しているかどうかをテストする場合などです。

適切なテストの選択

状況	テスト
1 つの平均を既知の値と比較する	1 サンプルの t 検定
2 つの独立した平均値を比較する	2 サンプルの t 検定
2 つの対応のある平均値を比較する	対応のある t 検定
3 つ以上の平均値を比較する	分散分析
3 つ以上の平均値を比較する (非正規)	クラスカル・ウォリス
2 つの連続変数間の関連性	ピアソン/スピアマン相関
カテゴリ比率を比較する	カイ二乗
2 つのグループ、非正規分布	マン・ホイットニー・U

よくある間違い

ピーク: テストを繰り返し実行し、p < の場合に停止します。 0.05 では、タイプ I エラーが大幅に増大します。データを収集する前にサンプルサイズを計画します。

多重比較: α = 0.05 で 20 の独立したテストを実行すると、平均して 1 つの偽陽性が生成されます。ボンフェローニ補正を使用するか、誤検出率を制御します。

仮定の無視: ほとんどの検定は、ランダムサンプリング、観測値の独立性、および (t 検定の場合) 近似正規性を前提としています。これらに違反すると、結果が損なわれます。

Z スコア計算機、サンプルサイズ計算機、t テスト計算機、および相関計算機を使用して、独自の計算を実行します。データ。