第2章 2-13b / 確率と確率分布

大数の法則 — 標本平均はなぜ母平均に近づくのか

このページで学ぶこと

コインをたくさん投げると、表の割合は $0.5$ に近づく──誰もが知るこの経験則に、きちんとした理論の裏付けを与えるのが大数の法則です。本ページでは「標本数 $n$ を大きくすると、標本平均 $\bar{X}$ が母平均 $\mu$ に近づく」ことを導出から示します。

鍵になるのは2つ。まず標本平均の $E[\bar{X}]=\mu$、$V[\bar{X}]=\dfrac{\sigma^2}{n}$ を、独立時の分散の和（2-5c）から導きます。次に、前回のチェビシェフの不等式を $\bar{X}$ に当てはめ、ズレの確率が $n\to\infty$ で $0$ に向かうことを確かめます。相対度数が確率に近づく理由も、ここで腑に落ちます。

さえ

「たくさん試せば平均に落ち着く」って当たり前に感じるけど、それを式で証明できるのが統計学のすごいところ。カギは「$\bar{X}$ のばらつき $V[\bar{X}]=\sigma^2/n$ が、$n$ を増やすとどんどん小さくなる」こと。そこにチェビシェフを重ねれば、大数の法則が出てくるよ。前回の不等式が早速主役だ！

1. 直感 ─ 試行を増やすと平均が落ち着く

サイコロを数回振っただけでは、出目の平均は $3.5$ から大きくぶれます。でも何百回、何千回と振れば、平均はだんだん $3.5$（理論上の期待値）に張り付いていきます。コインの表の割合が $0.5$ に近づくのも同じ現象です。

この「試行を増やすほど標本平均が母平均に近づく」という現象を、数学的に保証するのが大数の法則です。直感では当たり前に見えますが、なぜそうなるのかを式で示せると、推測統計の土台に確信が持てます。出発点として、標本平均そのものの期待値と分散を調べましょう。

2. 標本平均の期待値と分散 ★

母集団から無作為に取った大きさ $n$ の標本を $X_1, X_2, \dots, X_n$ とします。各 $X_i$ は互いに独立で、同じ分布に従い（平均 $\mu$、分散 $\sigma^2$）、標本平均を $$\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$$ と定義します。この $\bar{X}$ の期待値と分散を求めます。

期待値：$E[\bar{X}]=\mu$

ここでは期待値の線形性（独立性は不要）を使います。

DERIVATION

$$ \begin{aligned} E[\bar{X}] &= E\!\left[\frac{1}{n}\sum_{i=1}^{n} X_i\right] &&\text{(定義を代入)}\\[2pt] &= \frac{1}{n}\sum_{i=1}^{n} E[X_i] &&\text{(期待値の線形性。定数 $1/n$ を外へ)}\\[2pt] &= \frac{1}{n}\sum_{i=1}^{n} \mu &&\text{(各 $X_i$ の期待値は $\mu$)}\\[2pt] &= \frac{1}{n}\cdot n\mu &&\text{($\mu$ を $n$ 個足す)}\\[2pt] &= \mu \end{aligned} $$

標本平均の期待値は、母平均 $\mu$ にぴったり一致します。平均的には $\bar{X}$ は $\mu$ を狙い撃ちしているわけです（これは第3章の「不偏性」そのものです）。なお、この計算には独立性は使っていません。

分散：$V[\bar{X}]=\dfrac{\sigma^2}{n}$

こちらでは独立性が必要です。独立な確率変数どうしでは分散が足し算できる（2-5cで導いた $V[X+Y]=V[X]+V[Y]$）こと、そして定数倍は二乗で外に出る（$V[aX]=a^2 V[X]$）ことを使います。

DERIVATION

$$ \begin{aligned} V[\bar{X}] &= V\!\left[\frac{1}{n}\sum_{i=1}^{n} X_i\right] &&\text{(定義を代入)}\\[2pt] &= \frac{1}{n^2}\, V\!\left[\sum_{i=1}^{n} X_i\right] &&\text{($V[aX]=a^2V[X]$、$a=1/n$)}\\[2pt] &= \frac{1}{n^2}\sum_{i=1}^{n} V[X_i] &&\text{(独立なので分散は足し算できる)}\\[2pt] &= \frac{1}{n^2}\sum_{i=1}^{n} \sigma^2 &&\text{(各 $X_i$ の分散は $\sigma^2$)}\\[2pt] &= \frac{1}{n^2}\cdot n\sigma^2 &&\text{($\sigma^2$ を $n$ 個足す)}\\[2pt] &= \frac{\sigma^2}{n} \end{aligned} $$

POINT

$V[\bar{X}]=\dfrac{\sigma^2}{n}$。これが大数の法則の心臓部です。標本平均のばらつきは、$n$ を大きくすると $1/n$ のペースで小さくなる──$n$ を $100$ 倍にすれば分散は $1/100$、標準偏差は $1/10$ になります。$\bar{X}$ は $n$ が増えるほど $\mu$ のまわりにギュッと集中していくのです。なお3行目の足し算で独立性を使った点に注意。期待値の方は独立がいりませんでした。

標本平均 X̄ の分布：n が大きいほど V[X̄]=σ²/n が小さくなり、分布が μ のまわりに鋭く集中する

3. チェビシェフを $\bar{X}$ に適用する ★

いよいよ前回のチェビシェフの不等式を使います。チェビシェフは「任意の確率変数」に成り立つので、$\bar{X}$ にもそのまま適用できます。$\bar{X}$ の期待値は $\mu$、分散は $\sigma^2/n$。ここで「平均からのズレ」を $\varepsilon$（任意の正の小さな数）以上として評価します。

準備：チェビシェフを「ズレ $\varepsilon$」の形に書き直す

もとのチェビシェフは $P(|X-\mu|\ge k\sigma)\le 1/k^2$ でした。$\bar{X}$ の標準偏差は $\sqrt{V[\bar{X}]}=\sigma/\sqrt{n}$ なので、「$k$ 標準偏差」を「ズレ $\varepsilon$」と読み替えます。一般に、平均 $\mu$・分散 $V$ をもつ確率変数では $$P(|X-\mu|\ge \varepsilon)\le \frac{V}{\varepsilon^2}$$ と書けます（マルコフ型の表現。$Y=(X-\mu)^2,\ a=\varepsilon^2$ とおいたもの）。これに $X\to\bar{X}$、$V\to V[\bar{X}]=\sigma^2/n$ を入れます。

DERIVATION

$$ \begin{aligned} P\big(|\bar{X}-\mu|\ge \varepsilon\big) &\le \frac{V[\bar{X}]}{\varepsilon^2} &&\text{(チェビシェフを $\bar{X}$ に適用)}\\[2pt] &= \frac{\sigma^2/n}{\varepsilon^2} &&\text{($V[\bar{X}]=\sigma^2/n$ を代入)}\\[2pt] &= \frac{\sigma^2}{n\varepsilon^2} \end{aligned} $$

$n\to\infty$ で右辺は $0$ へ

得られた上限 $\dfrac{\sigma^2}{n\varepsilon^2}$ を見てください。$\sigma^2$ と $\varepsilon^2$ は固定された定数なので、分母の $n$ を大きくしていくと、この分数はいくらでも $0$ に近づきます。

DERIVATION

$$0 \le P\big(|\bar{X}-\mu|\ge \varepsilon\big) \le \frac{\sigma^2}{n\varepsilon^2} \xrightarrow[\;n\to\infty\;]{} 0$$ 左は確率なので $0$ 以上、右は $0$ に向かう。はさみうちで、 $$\lim_{n\to\infty} P\big(|\bar{X}-\mu|\ge \varepsilon\big) = 0$$ が任意の $\varepsilon>0$ について成り立ちます。

POINT（大数の法則）

どんなに小さなズレ $\varepsilon$ を決めても、$n$ を十分大きくすれば「$\bar{X}$ が $\mu$ から $\varepsilon$ 以上ずれる確率」は $0$ に近づく──これが（弱）大数の法則です。言いかえれば、$\bar{X}$ は $n\to\infty$ で母平均 $\mu$ に確率収束します。証明に必要だったのは、$V[\bar{X}]=\sigma^2/n$（独立性を使用）と、チェビシェフの不等式（分布の形は不問）の2つだけでした。

さえ

証明の流れ、シンプルでしょ？「$V[\bar{X}]=\sigma^2/n$ が $0$ に向かう → チェビシェフでズレの確率が抑えられる → だから収束」。母集団の分布が正規でも何でも関係ないのがミソ。ここで証明したのは「弱法則」って呼ばれるものだよ（もっと強い形もあるけど、2級は弱法則でOK！）

4. 相対度数 → 確率の正当化

大数の法則は「相対度数が確率に近づく」という、確率の根本的な直感を裏付けます。コイン投げで考えましょう。

$i$ 回目の試行で表が出たら $X_i=1$、裏なら $X_i=0$ とします。すると各 $X_i$ の期待値は表の出る確率 $p$ そのもの（$E[X_i]=1\cdot p + 0\cdot(1-p)=p$）です。ここで標本平均 $\bar{X}=\frac{1}{n}\sum X_i$ は、$n$ 回中に表が出た回数を $n$ で割った値、つまり表の相対度数にほかなりません。

大数の法則を $\mu=p$ として当てはめれば、$n\to\infty$ で相対度数 $\bar{X}$ は確率 $p$ に近づきます。「たくさん試せば、表の割合は真の確率に落ち着く」という経験則が、こうしてきちんと正当化されるのです。これは確率を「長期的な相対度数」として捉える見方（頻度論）の理論的な支えになっています。

EXAMPLE（ばらつきの縮み方）

母分散 $\sigma^2=4$（標準偏差 $\sigma=2$）の母集団から標本を取るとします。標本平均のばらつきは $n$ でどう変わるでしょう。

$n=25$：$V[\bar{X}]=\dfrac{4}{25}=0.16$、標準偏差 $\sqrt{0.16}=0.4$
$n=100$：$V[\bar{X}]=\dfrac{4}{100}=0.04$、標準偏差 $0.2$
$n=400$：$V[\bar{X}]=\dfrac{4}{400}=0.01$、標準偏差 $0.1$

$n$ を $4$ 倍にするたびに標準偏差は半分。$\bar{X}$ の精度を2倍にするには標本を4倍必要──「$\sqrt{n}$ の壁」と呼ばれる、実務でも効いてくる関係です。

5. 結論と使いどころ

POINT

大数の法則は、「標本を増やせば標本平均は母平均に近づく」ことの保証です。これがあるから、私たちは標本から母集団を推測してよい、と安心して言えます。次回の中心極限定理が「$\bar{X}$ がどんな形の分布になるか」を教えてくれるのに対し、大数の法則は「$\bar{X}$ がどこに集まるか」を教えてくれる──役割の違いも意識しておきましょう。

なお、本ページで示したのは確率がゼロに近づくという「弱法則」です。「ほとんど確実に収束する」という、より強い「強法則」も存在しますが、2級では弱法則の理解で十分です。

まとめ

第2章 2-13b、ポイントを整理します。

標本平均の期待値：$E[\bar{X}]=\mu$（期待値の線形性。独立性は不要）
標本平均の分散：$V[\bar{X}]=\dfrac{\sigma^2}{n}$（独立時の分散の和と $V[aX]=a^2V[X]$ を使用）
チェビシェフの適用：$P(|\bar{X}-\mu|\ge\varepsilon)\le \dfrac{\sigma^2}{n\varepsilon^2}$
大数の法則：$n\to\infty$ で上限が $0$ → $\bar{X}$ は $\mu$ に確率収束（分布の形は不問）
相対度数→確率：表を $1$・裏を $0$ とすれば $\bar{X}$ は相対度数。これが確率 $p$ に近づく

次回 2-13c 中心極限定理はこの章の最重要回。「$\bar{X}$ がどこに集まるか」を超えて、「$\bar{X}$ の標準化が、母集団の分布によらず正規分布に近づく」という驚きの事実を導きます。二項分布の正規近似・連続修正まで、一気に学びます。

さえ

$V[\bar{X}]=\sigma^2/n$ の導出、独立性を使う行はどこだったか思い出せる？　ここを押さえると、次の中心極限定理がぐっと深くわかるよ。大数の法則は「どこに集まるか」、中心極限定理は「どんな形か」──セットで覚えてね！