標本分布(χ²・t・F分布)— 統計量の分布という考え方
ここまでは「確率変数 $X$ そのものの分布」を見てきました。本ページでは視点を一段あげて、標本から計算した統計量(平均や分散など)も、それ自体が確率変数であり、固有の分布を持つという考え方を身につけます。この「統計量の分布」を標本分布と呼びます。
そして、推定や検定でくり返し登場する3つの分布──$\chi^2$(カイ二乗)分布・$t$ 分布・$F$ 分布──の成り立ちと、形を決める自由度、表から確率を読む上側確率点の見方を整理します。導出には深入りせず、「どの統計量から生まれ、どんな形か」を押さえるのが狙いです。
標本から計算した平均や分散って、サンプルを取り直すたびに値が変わるよね。つまり統計量も確率変数なんだ。その「ばらつき方」を表すのが標本分布。$\chi^2$・$t$・$F$ は名前が怖いけど、全部「標準正規分布から作られる仲間」だよ。怖がらず形を眺めていこう!
1. 統計量も確率変数 ─ 標本分布とは
母集団から大きさ $n$ の標本 $X_1, X_2, \dots, X_n$ を無作為に取り出し、そこから標本平均 $\bar{X}$ や標本分散 $S^2$ を計算するとします。ここで大切なのは、標本を取り直すたびに $\bar{X}$ の値は変わるという事実です。一度きりの数字に見えても、別のサンプルなら別の値になる──つまり $\bar{X}$ は確率変数なのです。
標本から計算される量を一般に統計量と呼びます。統計量は確率変数なので、固有の確率分布を持ちます。この統計量の確率分布こそが標本分布です。
標本分布とは、標本から計算した統計量($\bar{X}$, $S^2$ など)が従う確率分布のこと。「データの分布」ではなく「統計量の分布」である点がポイントです。推定や検定は、この標本分布を土台に「観測した統計量がどれくらい起こりやすいか」を測ります。
たとえば標本平均 $\bar{X}$ の標本分布は、後の 2-13c 中心極限定理 で見るように、$n$ が大きいとき正規分布に近づきます。本ページではそれと並んで重要な、$\chi^2$・$t$・$F$ という3つの標本分布を紹介します。いずれも標準正規分布を素材にして組み立てられるのが共通点です。
2. $\chi^2$(カイ二乗)分布 ─ 標準正規の二乗和
最初は $\chi^2$ 分布です。これは独立な標準正規分布をいくつか二乗して足し合わせた量の分布です。
$Z_1, Z_2, \dots, Z_k$ が互いに独立で、それぞれ標準正規分布 $N(0,1)$ に従うとき、 $$\chi^2 = Z_1^2 + Z_2^2 + \dots + Z_k^2 = \sum_{i=1}^{k} Z_i^2$$ は自由度 $k$ の $\chi^2$ 分布に従います。
ここで $k$ を自由度と呼びます。足し合わせた標準正規変数の個数だと考えればイメージしやすいです。$\chi^2$ は二乗の和なので必ず $0$ 以上になり、分布は $0$ から右側にだけ広がる、左右非対称(右に裾を引く)の形になります。
χ²分布の概形:右に裾を引く非対称な形。自由度が大きいほど山が右へ移り、なだらかになる
自由度が大きくなるほど山は右へ移動し、形はなだらかで左右対称に近づいていきます(自由度=足す個数が増えるほど、和の平均が大きくなるためです)。$\chi^2$ 分布は、標本分散や、第6章で学ぶ適合度検定・独立性検定の土台になります。
3. $t$ 分布 ─ 正規より裾が重い
次は $t$ 分布です。これは標準正規分布を、独立な $\chi^2$ 分布から作った量で割った形をしています。
$Z$ が標準正規分布 $N(0,1)$、$\chi^2$ が自由度 $k$ の $\chi^2$ 分布に従い、両者が独立なとき、 $$t = \frac{Z}{\sqrt{\chi^2 / k}}$$ は自由度 $k$ の $t$ 分布に従います。
$t$ 分布は、標準正規分布と同じく $0$ を中心に左右対称ですが、正規分布より裾が重い(外側に確率が多く残る)のが特徴です。分母に「推定したばらつき」が入る分だけ、余分な不確かさが上乗せされ、外れ値が出やすくなるためです。
t分布(破線)と標準正規分布(実線):t分布は中央がやや低く、両側の裾がふくらむ。自由度が大きいほど正規に近づく
自由度 $k$ が大きくなると、$t$ 分布は標準正規分布 $N(0,1)$ に近づきます。分母の $\sqrt{\chi^2/k}$ が、自由度が大きいほど $1$ に安定するためです(おおむね $k=30$ を超えると見た目はほぼ正規)。$t$ 分布は、母分散がわからないときの母平均の推定・検定(第3章・第4章)で主役になります。
4. $F$ 分布 ─ 2つの $\chi^2$ の比
最後は $F$ 分布です。これは2つの独立な $\chi^2$ 分布を、それぞれの自由度で割って比をとった量の分布です。
$\chi^2_1$ が自由度 $k_1$、$\chi^2_2$ が自由度 $k_2$ の $\chi^2$ 分布に従い、両者が独立なとき、 $$F = \frac{\chi^2_1 / k_1}{\chi^2_2 / k_2}$$ は自由度 $(k_1, k_2)$ の $F$ 分布に従います。$k_1$ を第1自由度(分子)、$k_2$ を第2自由度(分母)と呼びます。
$F$ は正の量どうしの比なので必ず $0$ 以上で、$\chi^2$ と同じく右に裾を引く非対称な分布になります。2つのばらつき(分散)を比べる量なので、分散の比の検定や、第5章の分散分析(ANOVA)で中心的な役割を果たします。
F分布の概形:0から立ち上がり、右へ長い裾を引く非対称な形。2つの分散の比を表す
5. 上側確率点の読み方 ─ $z_\alpha, t_\alpha, \chi^2_\alpha, F_\alpha$
これらの分布を実際に使うとき、知りたいのは「ある値より外側に出る確率」です。そこで登場するのが上側確率点(上側パーセント点)です。
上側 $\alpha$ 点とは、その値より右側(上側)の面積(確率)がちょうど $\alpha$ になる横軸の値のことです。標準正規なら $z_\alpha$、$t$ 分布なら $t_\alpha$、$\chi^2$ 分布なら $\chi^2_\alpha$、$F$ 分布なら $F_\alpha$ と書きます。式で書くと、たとえば $$P(Z \ge z_\alpha) = \alpha$$ を満たす $z_\alpha$ が上側 $\alpha$ 点です。$t,\ \chi^2,\ F$ も同じく $P(\,\cdot \ge \text{点}) = \alpha$ で定義されます。
上側α点 z_α:この点より右側の面積(確率)がちょうど α になる。塗った部分が α
試験では各分布の数表(巻末資料の付録Aで引き方を扱います)が問題用紙に添付され、$\alpha$ と自由度を手がかりに上側確率点を読み取ります。よく使う標準正規の値として、$z_{0.05} \approx 1.645$、$z_{0.025} \approx 1.960$ は覚えておくと便利です(後者は両側 $5\%$、つまり信頼度 $95\%$ の区間で頻出します)。
| 分布 | 成り立ち | 形 | 上側確率点 | 主な用途 |
|---|---|---|---|---|
| $\chi^2$ 分布(自由度 $k$) | 標準正規の二乗和 $\sum Z_i^2$ | 0以上・右に裾 | $\chi^2_\alpha$ | 分散・適合度・独立性 |
| $t$ 分布(自由度 $k$) | $Z / \sqrt{\chi^2/k}$ | 左右対称・裾が重い | $t_\alpha$ | 母分散未知の母平均 |
| $F$ 分布(自由度 $k_1, k_2$) | $(\chi^2_1/k_1)/(\chi^2_2/k_2)$ | 0以上・右に裾 | $F_\alpha$ | 分散の比・分散分析 |
3つの分布、関係を一言で覚えよう。$\chi^2$ は「正規を二乗して足す」、$t$ は「正規を $\chi^2$ で割る」、$F$ は「$\chi^2$ どうしの比」。全部 $N(0,1)$ から生まれた家族なんだね。自由度が形を決めて、$t$ は自由度が大きいと正規に戻る──ここ、試験で問われやすいよ!
6. 結論と使いどころ
標本分布の考え方は、これから学ぶ推定・検定すべての出発点です。「観測した統計量が、もし仮説が正しければどんな分布に従うか」を知っていれば、「その値はどれくらい珍しいか」を確率で測れます。これが推測統計のエンジンです。
次の場面では、どの標本分布が出てくるでしょうか。
- 母分散が未知のまま母平均を区間推定したい → 標準偏差を推定値で代用するため $t$ 分布
- サイコロの出目が一様かどうかを検定したい → 観測度数と期待度数のズレの二乗和なので $\chi^2$ 分布
- 2つのグループのばらつき(分散)が等しいか調べたい → 分散の比なので $F$ 分布
どれも「素材は標準正規」と思い出せば、なぜその分布になるのかが腑に落ちます。
まとめ
第2章 2-12、ポイントを整理します。
- 標本分布:統計量も確率変数であり、その従う分布を標本分布と呼ぶ
- $\chi^2$ 分布:独立な標準正規の二乗和 $\sum_{i=1}^{k} Z_i^2$。自由度 $k$、$0$ 以上で右に裾
- $t$ 分布:$Z/\sqrt{\chi^2/k}$。左右対称だが正規より裾が重い。自由度大で $N(0,1)$ に近づく
- $F$ 分布:$(\chi^2_1/k_1)/(\chi^2_2/k_2)$。2つの分散の比。$0$ 以上で右に裾
- 上側確率点:$P(\cdot \ge \text{点})=\alpha$ を満たす値。$z_\alpha, t_\alpha, \chi^2_\alpha, F_\alpha$。数表から読む
次回 2-13a チェビシェフの不等式 からは、いよいよ推測統計の理論的な背骨に入ります。「分布の形によらず、平均からどれだけ離れるか」を確率で押さえる不等式を、導出から丁寧に追います。
$\chi^2$・$t$・$F$、形と成り立ちはつかめたかな? 今は「どこから来た、どんな形」がわかれば十分。具体的な使い方は第3章・第4章でたっぷり練習するよ。次はチェビシェフの不等式──分布の形を問わない、すごく強い味方が登場するよ!