第2章 2-13c / 確率と確率分布

中心極限定理と正規近似 — 標本平均はなぜ正規分布に近づくのか

このページで学ぶこと

いよいよ第2章の最重要テーマ、中心極限定理（CLT）です。前回の大数の法則が「標本平均 $\bar{X}$ が母平均 $\mu$ に集まる」ことを教えたのに対し、中心極限定理は「$\bar{X}$ がどんな形の分布になるか」を教えます。その答えが驚くほど普遍的──母集団がどんな分布でも、$n$ が大きければ $\bar{X}$ の標準化は標準正規分布 $N(0,1)$ に近づくのです。

この定理があるからこそ、第3章以降の推定・検定で「正規分布」が主役になれます。あわせて、その代表的な応用である二項分布の正規近似 $\mathrm{Bin}(n,p)\approx N(np,\,np(1-p))$ と、精度を上げる連続修正を学び、数値例で真の二項確率と突き合わせて精度を確かめます。

さえ

これが統計学で一番びっくりする定理！　もとの母集団がガタガタの形でも、サイコロみたいに角ばってても、標本平均を取って $n$ を増やすと、なぜか必ず正規分布の釣鐘型になるの。だから世の中の推定や検定が正規分布で回せるんだよ。ここを制すれば第2章は卒業、第3章へGO！

1. 主張 ─ 母集団の分布によらず正規に近づく

母集団から無作為に取った大きさ $n$ の標本 $X_1,\dots,X_n$ を考えます。各 $X_i$ は独立同分布で、平均 $\mu$、分散 $\sigma^2$ を持つとします。母集団の分布の形は問いません（一様でも、二項でも、いびつな形でもよい）。このとき標本平均 $\bar{X}$ を標準化した量について、次が成り立ちます。

FORMULA（中心極限定理）

$\bar{X}$ の期待値は $\mu$、標準偏差は $\sigma/\sqrt{n}$（前回 2-13b で導出）なので、これで標準化すると、 $$Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \;\xrightarrow[\;n\to\infty\;]{d}\; N(0,1)$$ $n$ が大きくなるにつれ、$Z$ の分布は標準正規分布 $N(0,1)$ に近づきます（$\xrightarrow{d}$ は「分布が近づく」の意味）。

標準化を解くと、標本平均そのものや、和 $S_n=\sum_{i=1}^{n} X_i$ についても次のように言えます。

FORMULA

$n$ が十分大きいとき、近似的に $$\bar{X} \approx N\!\left(\mu,\ \frac{\sigma^2}{n}\right), \qquad S_n = \sum_{i=1}^{n} X_i \approx N\!\left(n\mu,\ n\sigma^2\right)$$ が成り立ちます。和 $S_n$ では期待値が $n\mu$、分散が $n\sigma^2$ になる点に注意（$\bar{X}=S_n/n$ から導けます）。

なぜこんなことが起きるのか（直感）

厳密な証明は2級の範囲を超えますが、直感はつかめます。$\bar{X}$ は「たくさんの独立な小さなゆらぎ $X_i$ を足し合わせて平均したもの」です。多数のランダムな要因が足し合わさるとき、それぞれの個性（もとの分布の形）は打ち消し合い、和の分布は釣鐘型に均（なら）されていく──これが中心極限定理の核心イメージです。身長や測定誤差が正規分布に従いやすいのも、無数の小さな要因の和だから、と説明できます。

中心極限定理のイメージ：母集団がどんな形でも、標本平均は n を増やすほど正規分布の釣鐘型に近づく

POINT

大数の法則と中心極限定理はセットで理解します。大数の法則は「$\bar{X}$ が $\mu$ という一点に集まる」（中心はどこか）、中心極限定理は「集まる途中の $\bar{X}$ が正規分布という形をとる」（ばらつきの形はどうか）。後者があるから、$\bar{X}$ が $\mu$ からどれだけずれるかを正規分布の確率で精密に評価でき、区間推定や検定が可能になります。

2. 二項分布の正規近似

中心極限定理のもっとも身近な応用が、二項分布の正規近似です。二項分布 $\mathrm{Bin}(n,p)$ に従う確率変数 $X$ は、「成功なら $1$・失敗なら $0$」という独立な試行 $Y_1,\dots,Y_n$ の和 $X=\sum Y_i$ と見なせます。各 $Y_i$ は平均 $p$、分散 $p(1-p)$。まさに「独立な確率変数の和」なので、中心極限定理がそのまま使えるのです。

FORMULA

$n$ が十分大きいとき、二項分布は次の正規分布で近似できます。 $$\mathrm{Bin}(n,p) \approx N\big(np,\ np(1-p)\big)$$ 平均 $np$・分散 $np(1-p)$ は二項分布のものをそのまま受け継ぎます（和なので期待値は $n\cdot p$、分散は $n\cdot p(1-p)$）。

なぜ近似してよいのか

理由は2つあります。ひとつは上で述べたとおり、$X$ が独立な試行の和なので中心極限定理の前提を満たすこと。もうひとつは、二項分布が $0,1,2,\dots,n$ という等間隔の整数に確率を割り当てた、もともと釣鐘型に近い形をしていること（3級7-3で見た $\mathrm{Bin}(10,0.5)$ の左右対称な山を思い出してください）。$n$ を増やすほど、この階段状の山がなめらかな正規曲線に重なっていきます。

POINT（近似の目安）

近似が十分な精度になる目安は $$np \ge 5 \quad\text{かつ}\quad n(1-p) \ge 5$$ です（$np\ge 10,\ n(1-p)\ge 10$ をより安全な基準とする教科書もあります）。$p$ が $0$ や $1$ に極端に近いと分布が片側に偏り、正規近似がずれます。この条件は「成功・失敗のどちらも十分な回数が見込める」ことを意味します。

3. 連続修正 ─ 階段を曲線に合わせる工夫

ここで小さな、しかし大事な落とし穴があります。二項分布は離散（とびとびの整数）なのに、正規分布は連続です。離散の確率を連続の面積で近似するとき、そのまま当てはめると系統的なズレが出ます。これを補うのが連続修正（半整数補正）です。

考え方はこうです。二項分布で「$X=k$」という1本の棒は、面積で見ると幅 $1$ の長方形、すなわち $k-0.5$ から $k+0.5$ までの区間に対応すると考えます。だから「$X\le k$」の確率を正規分布で測るときは、$k$ ちょうどではなく、棒の右端 $k+0.5$ までの面積を取るのが正しい、というわけです。

連続修正：離散の棒（幅1の長方形）を連続曲線に合わせるため、X≤k は k+0.5 までの面積で近似する

FORMULA（連続修正）

$X \sim \mathrm{Bin}(n,p)$、$\Phi$ を標準正規分布の累積分布関数とすると、 $$P(X \le k) \approx \Phi\!\left(\frac{k+0.5-np}{\sqrt{np(1-p)}}\right)$$ 同様に、$P(X \ge k) \approx 1-\Phi\!\left(\dfrac{k-0.5-np}{\sqrt{np(1-p)}}\right)$。
ポイントは「含めたい端は外側へ $0.5$ ずらす」こと。$X\le k$ は $k$ を含めたいので $+0.5$、$X\ge k$ は $k$ を含めたいので $-0.5$ します。

4. 数値例 ─ 真の二項確率と比べる

実際に正規近似＋連続修正を使い、真の二項確率とどれだけ合うかを見ます。

EXAMPLE 1（コイン100回）

公正なコインを $100$ 回投げ、表の回数を $X\sim\mathrm{Bin}(100,\,0.5)$ とします。表が $55$ 回以下になる確率 $P(X\le 55)$ を求めましょう。

まず目安の確認：$np=100\times0.5=50\ge 5$、$n(1-p)=50\ge 5$。近似してよい条件を満たします。

平均 $np=50$、分散 $np(1-p)=100\times0.5\times0.5=25$、標準偏差 $\sqrt{25}=5$。連続修正を入れて、 $$P(X\le 55)\approx \Phi\!\left(\frac{55+0.5-50}{5}\right)=\Phi\!\left(\frac{5.5}{5}\right)=\Phi(1.1)\approx 0.8643$$

正規近似＋連続修正：約 0.8643
真の二項確率：約 0.8644
（参考）連続修正なし $\Phi(50/5\text{の補正抜き})=\Phi(1.0)\approx 0.8413$ → 真値から約 $0.023$ もずれる

連続修正ありなら真値とほぼ一致（差は $0.0001$ 程度）。連続修正を入れるだけで精度が劇的に上がることがわかります。

EXAMPLE 2（p が 0.5 でない場合）

ある作業の成功率が $p=0.3$。$n=50$ 回行うとき、成功回数 $X\sim\mathrm{Bin}(50,\,0.3)$ が$18$ 回以下になる確率 $P(X\le 18)$ は？

目安：$np=15\ge 5$、$n(1-p)=35\ge 5$。OK です。平均 $np=15$、分散 $np(1-p)=50\times0.3\times0.7=10.5$、標準偏差 $\sqrt{10.5}\approx 3.240$。連続修正を入れて、 $$P(X\le 18)\approx \Phi\!\left(\frac{18+0.5-15}{3.240}\right)=\Phi\!\left(\frac{3.5}{3.240}\right)=\Phi(1.080)\approx 0.8600$$

正規近似＋連続修正：約 0.8600
真の二項確率：約 0.8594

$p$ が $0.5$ から外れても、目安を満たしていれば差は $0.001$ 未満。実用上まったく問題ない精度です。

問題	正規近似＋連続修正	真の二項確率	差
$\mathrm{Bin}(100,0.5)$, $P(X\le 55)$	0.8643	0.8644	約 0.0001
$\mathrm{Bin}(50,0.3)$, $P(X\le 18)$	0.8600	0.8594	約 0.0006

さえ

連続修正の $\pm 0.5$、向きを間違えやすいから注意！　「$X\le k$ なら $+0.5$、$X\ge k$ なら $-0.5$」──含めたい $k$ の棒を丸ごと拾うように外側へ広げると覚えてね。EXAMPLE 1 で見たとおり、修正ありとなしで精度が全然違うよ。試験でも修正の有無で答えが変わることがあるから要チェック！

5. 結論と使いどころ

POINT

中心極限定理は、「母集団の分布を知らなくても、標本平均（や和）の分布は正規分布で扱える」という強力な保証です。これがあるから、第3章の区間推定（標本平均 $\pm 1.96 \times \sigma/\sqrt{n}$ など）や、第4章の $z$ 検定が成り立ちます。「正規分布を仮定してよい根拠は何?」と問われたら、答えは中心極限定理です。

実務でも、アンケートの支持率（二項→正規近似）、製造ロットの不良率、A/Bテストの成功率比較など、「割合」や「平均」を扱う場面のほぼすべてがこの定理に支えられています。$n$ さえ十分なら、複雑なもとの分布を気にせず正規分布の道具一式が使える──これが推測統計の屋台骨です。

まとめ

第2章 2-13c、ポイントを整理します。

中心極限定理：母集団の分布によらず、$n$ 大で $Z=\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}\to N(0,1)$
和と平均：$\bar{X}\approx N(\mu,\ \sigma^2/n)$、$S_n\approx N(n\mu,\ n\sigma^2)$
二項の正規近似：$\mathrm{Bin}(n,p)\approx N(np,\ np(1-p))$。$X$ が独立試行の和だから使える
近似の目安：$np\ge 5$ かつ $n(1-p)\ge 5$
連続修正：$P(X\le k)\approx \Phi\!\left(\dfrac{k+0.5-np}{\sqrt{np(1-p)}}\right)$。含めたい端を外へ $0.5$ ずらす
精度：数値例で真の二項確率とほぼ一致（連続修正の有無で差が大きい）

これで第2章「確率と確率分布」は完結です。次の 3-1 母集団と標本から、いよいよ統計的推定の章へ。本ページで身につけた「標本平均は正規分布で扱える」という土台の上に、推定・検定の理論を組み上げていきます。

さえ

第2章おつかれさま！　中心極限定理は2級全体で一番大事と言っても過言じゃないよ。「母集団の形を問わず正規になる」──この一言を体に染み込ませてね。次の章からは、いよいよこの定理を武器に母集団を推定していくよ。ここまで来たあなたなら大丈夫！