大数の法則 — 標本平均はなぜ母平均に近づくのか
コインをたくさん投げると、表の割合は $0.5$ に近づく──誰もが知るこの経験則に、きちんとした理論の裏付けを与えるのが大数の法則です。本ページでは「標本数 $n$ を大きくすると、標本平均 $\bar{X}$ が母平均 $\mu$ に近づく」ことを導出から示します。
鍵になるのは2つ。まず標本平均の $E[\bar{X}]=\mu$、$V[\bar{X}]=\dfrac{\sigma^2}{n}$ を、独立時の分散の和(2-5c)から導きます。次に、前回のチェビシェフの不等式を $\bar{X}$ に当てはめ、ズレの確率が $n\to\infty$ で $0$ に向かうことを確かめます。相対度数が確率に近づく理由も、ここで腑に落ちます。
「たくさん試せば平均に落ち着く」って当たり前に感じるけど、それを式で証明できるのが統計学のすごいところ。カギは「$\bar{X}$ のばらつき $V[\bar{X}]=\sigma^2/n$ が、$n$ を増やすとどんどん小さくなる」こと。そこにチェビシェフを重ねれば、大数の法則が出てくるよ。前回の不等式が早速主役だ!
1. 直感 ─ 試行を増やすと平均が落ち着く
サイコロを数回振っただけでは、出目の平均は $3.5$ から大きくぶれます。でも何百回、何千回と振れば、平均はだんだん $3.5$(理論上の期待値)に張り付いていきます。コインの表の割合が $0.5$ に近づくのも同じ現象です。
この「試行を増やすほど標本平均が母平均に近づく」という現象を、数学的に保証するのが大数の法則です。直感では当たり前に見えますが、なぜそうなるのかを式で示せると、推測統計の土台に確信が持てます。出発点として、標本平均そのものの期待値と分散を調べましょう。
2. 標本平均の期待値と分散 ★
母集団から無作為に取った大きさ $n$ の標本を $X_1, X_2, \dots, X_n$ とします。各 $X_i$ は互いに独立で、同じ分布に従い(平均 $\mu$、分散 $\sigma^2$)、標本平均を $$\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$$ と定義します。この $\bar{X}$ の期待値と分散を求めます。
期待値:$E[\bar{X}]=\mu$
ここでは期待値の線形性(独立性は不要)を使います。
$$ \begin{aligned} E[\bar{X}] &= E\!\left[\frac{1}{n}\sum_{i=1}^{n} X_i\right] &&\text{(定義を代入)}\\[2pt] &= \frac{1}{n}\sum_{i=1}^{n} E[X_i] &&\text{(期待値の線形性。定数 $1/n$ を外へ)}\\[2pt] &= \frac{1}{n}\sum_{i=1}^{n} \mu &&\text{(各 $X_i$ の期待値は $\mu$)}\\[2pt] &= \frac{1}{n}\cdot n\mu &&\text{($\mu$ を $n$ 個足す)}\\[2pt] &= \mu \end{aligned} $$
標本平均の期待値は、母平均 $\mu$ にぴったり一致します。平均的には $\bar{X}$ は $\mu$ を狙い撃ちしているわけです(これは第3章の「不偏性」そのものです)。なお、この計算には独立性は使っていません。
分散:$V[\bar{X}]=\dfrac{\sigma^2}{n}$
こちらでは独立性が必要です。独立な確率変数どうしでは分散が足し算できる(2-5cで導いた $V[X+Y]=V[X]+V[Y]$)こと、そして定数倍は二乗で外に出る($V[aX]=a^2 V[X]$)ことを使います。
$$ \begin{aligned} V[\bar{X}] &= V\!\left[\frac{1}{n}\sum_{i=1}^{n} X_i\right] &&\text{(定義を代入)}\\[2pt] &= \frac{1}{n^2}\, V\!\left[\sum_{i=1}^{n} X_i\right] &&\text{($V[aX]=a^2V[X]$、$a=1/n$)}\\[2pt] &= \frac{1}{n^2}\sum_{i=1}^{n} V[X_i] &&\text{(独立なので分散は足し算できる)}\\[2pt] &= \frac{1}{n^2}\sum_{i=1}^{n} \sigma^2 &&\text{(各 $X_i$ の分散は $\sigma^2$)}\\[2pt] &= \frac{1}{n^2}\cdot n\sigma^2 &&\text{($\sigma^2$ を $n$ 個足す)}\\[2pt] &= \frac{\sigma^2}{n} \end{aligned} $$
$V[\bar{X}]=\dfrac{\sigma^2}{n}$。これが大数の法則の心臓部です。標本平均のばらつきは、$n$ を大きくすると $1/n$ のペースで小さくなる──$n$ を $100$ 倍にすれば分散は $1/100$、標準偏差は $1/10$ になります。$\bar{X}$ は $n$ が増えるほど $\mu$ のまわりにギュッと集中していくのです。なお3行目の足し算で独立性を使った点に注意。期待値の方は独立がいりませんでした。
標本平均 X̄ の分布:n が大きいほど V[X̄]=σ²/n が小さくなり、分布が μ のまわりに鋭く集中する
3. チェビシェフを $\bar{X}$ に適用する ★
いよいよ前回のチェビシェフの不等式を使います。チェビシェフは「任意の確率変数」に成り立つので、$\bar{X}$ にもそのまま適用できます。$\bar{X}$ の期待値は $\mu$、分散は $\sigma^2/n$。ここで「平均からのズレ」を $\varepsilon$(任意の正の小さな数)以上として評価します。
準備:チェビシェフを「ズレ $\varepsilon$」の形に書き直す
もとのチェビシェフは $P(|X-\mu|\ge k\sigma)\le 1/k^2$ でした。$\bar{X}$ の標準偏差は $\sqrt{V[\bar{X}]}=\sigma/\sqrt{n}$ なので、「$k$ 標準偏差」を「ズレ $\varepsilon$」と読み替えます。一般に、平均 $\mu$・分散 $V$ をもつ確率変数では $$P(|X-\mu|\ge \varepsilon)\le \frac{V}{\varepsilon^2}$$ と書けます(マルコフ型の表現。$Y=(X-\mu)^2,\ a=\varepsilon^2$ とおいたもの)。これに $X\to\bar{X}$、$V\to V[\bar{X}]=\sigma^2/n$ を入れます。
$$ \begin{aligned} P\big(|\bar{X}-\mu|\ge \varepsilon\big) &\le \frac{V[\bar{X}]}{\varepsilon^2} &&\text{(チェビシェフを $\bar{X}$ に適用)}\\[2pt] &= \frac{\sigma^2/n}{\varepsilon^2} &&\text{($V[\bar{X}]=\sigma^2/n$ を代入)}\\[2pt] &= \frac{\sigma^2}{n\varepsilon^2} \end{aligned} $$
$n\to\infty$ で右辺は $0$ へ
得られた上限 $\dfrac{\sigma^2}{n\varepsilon^2}$ を見てください。$\sigma^2$ と $\varepsilon^2$ は固定された定数なので、分母の $n$ を大きくしていくと、この分数はいくらでも $0$ に近づきます。
$$0 \le P\big(|\bar{X}-\mu|\ge \varepsilon\big) \le \frac{\sigma^2}{n\varepsilon^2} \xrightarrow[\;n\to\infty\;]{} 0$$ 左は確率なので $0$ 以上、右は $0$ に向かう。はさみうちで、 $$\lim_{n\to\infty} P\big(|\bar{X}-\mu|\ge \varepsilon\big) = 0$$ が任意の $\varepsilon>0$ について成り立ちます。
どんなに小さなズレ $\varepsilon$ を決めても、$n$ を十分大きくすれば「$\bar{X}$ が $\mu$ から $\varepsilon$ 以上ずれる確率」は $0$ に近づく──これが(弱)大数の法則です。言いかえれば、$\bar{X}$ は $n\to\infty$ で母平均 $\mu$ に確率収束します。証明に必要だったのは、$V[\bar{X}]=\sigma^2/n$(独立性を使用)と、チェビシェフの不等式(分布の形は不問)の2つだけでした。
証明の流れ、シンプルでしょ?「$V[\bar{X}]=\sigma^2/n$ が $0$ に向かう → チェビシェフでズレの確率が抑えられる → だから収束」。母集団の分布が正規でも何でも関係ないのがミソ。ここで証明したのは「弱法則」って呼ばれるものだよ(もっと強い形もあるけど、2級は弱法則でOK!)
4. 相対度数 → 確率の正当化
大数の法則は「相対度数が確率に近づく」という、確率の根本的な直感を裏付けます。コイン投げで考えましょう。
$i$ 回目の試行で表が出たら $X_i=1$、裏なら $X_i=0$ とします。すると各 $X_i$ の期待値は表の出る確率 $p$ そのもの($E[X_i]=1\cdot p + 0\cdot(1-p)=p$)です。ここで標本平均 $\bar{X}=\frac{1}{n}\sum X_i$ は、$n$ 回中に表が出た回数を $n$ で割った値、つまり表の相対度数にほかなりません。
大数の法則を $\mu=p$ として当てはめれば、$n\to\infty$ で相対度数 $\bar{X}$ は確率 $p$ に近づきます。「たくさん試せば、表の割合は真の確率に落ち着く」という経験則が、こうしてきちんと正当化されるのです。これは確率を「長期的な相対度数」として捉える見方(頻度論)の理論的な支えになっています。
母分散 $\sigma^2=4$(標準偏差 $\sigma=2$)の母集団から標本を取るとします。標本平均のばらつきは $n$ でどう変わるでしょう。
- $n=25$:$V[\bar{X}]=\dfrac{4}{25}=0.16$、標準偏差 $\sqrt{0.16}=0.4$
- $n=100$:$V[\bar{X}]=\dfrac{4}{100}=0.04$、標準偏差 $0.2$
- $n=400$:$V[\bar{X}]=\dfrac{4}{400}=0.01$、標準偏差 $0.1$
$n$ を $4$ 倍にするたびに標準偏差は半分。$\bar{X}$ の精度を2倍にするには標本を4倍必要──「$\sqrt{n}$ の壁」と呼ばれる、実務でも効いてくる関係です。
5. 結論と使いどころ
大数の法則は、「標本を増やせば標本平均は母平均に近づく」ことの保証です。これがあるから、私たちは標本から母集団を推測してよい、と安心して言えます。次回の中心極限定理が「$\bar{X}$ がどんな形の分布になるか」を教えてくれるのに対し、大数の法則は「$\bar{X}$ がどこに集まるか」を教えてくれる──役割の違いも意識しておきましょう。
なお、本ページで示したのは確率がゼロに近づくという「弱法則」です。「ほとんど確実に収束する」という、より強い「強法則」も存在しますが、2級では弱法則の理解で十分です。
まとめ
第2章 2-13b、ポイントを整理します。
- 標本平均の期待値:$E[\bar{X}]=\mu$(期待値の線形性。独立性は不要)
- 標本平均の分散:$V[\bar{X}]=\dfrac{\sigma^2}{n}$(独立時の分散の和と $V[aX]=a^2V[X]$ を使用)
- チェビシェフの適用:$P(|\bar{X}-\mu|\ge\varepsilon)\le \dfrac{\sigma^2}{n\varepsilon^2}$
- 大数の法則:$n\to\infty$ で上限が $0$ → $\bar{X}$ は $\mu$ に確率収束(分布の形は不問)
- 相対度数→確率:表を $1$・裏を $0$ とすれば $\bar{X}$ は相対度数。これが確率 $p$ に近づく
次回 2-13c 中心極限定理 はこの章の最重要回。「$\bar{X}$ がどこに集まるか」を超えて、「$\bar{X}$ の標準化が、母集団の分布によらず正規分布に近づく」という驚きの事実を導きます。二項分布の正規近似・連続修正まで、一気に学びます。
$V[\bar{X}]=\sigma^2/n$ の導出、独立性を使う行はどこだったか思い出せる? ここを押さえると、次の中心極限定理がぐっと深くわかるよ。大数の法則は「どこに集まるか」、中心極限定理は「どんな形か」──セットで覚えてね!