第2章 2-13c / 確率と確率分布

中心極限定理と正規近似 — 標本平均はなぜ正規分布に近づくのか

このページで学ぶこと

いよいよ第2章の最重要テーマ、中心極限定理(CLT)です。前回の大数の法則が「標本平均 $\bar{X}$ が母平均 $\mu$ に集まる」ことを教えたのに対し、中心極限定理は「$\bar{X}$ がどんな形の分布になるか」を教えます。その答えが驚くほど普遍的──母集団がどんな分布でも、$n$ が大きければ $\bar{X}$ の標準化は標準正規分布 $N(0,1)$ に近づくのです。

この定理があるからこそ、第3章以降の推定・検定で「正規分布」が主役になれます。あわせて、その代表的な応用である二項分布の正規近似 $\mathrm{Bin}(n,p)\approx N(np,\,np(1-p))$ と、精度を上げる連続修正を学び、数値例で真の二項確率と突き合わせて精度を確かめます。

さえちゃん
さえ

これが統計学で一番びっくりする定理! もとの母集団がガタガタの形でも、サイコロみたいに角ばってても、標本平均を取って $n$ を増やすと、なぜか必ず正規分布の釣鐘型になるの。だから世の中の推定や検定が正規分布で回せるんだよ。ここを制すれば第2章は卒業、第3章へGO!

1. 主張 ─ 母集団の分布によらず正規に近づく

母集団から無作為に取った大きさ $n$ の標本 $X_1,\dots,X_n$ を考えます。各 $X_i$ は独立同分布で、平均 $\mu$、分散 $\sigma^2$ を持つとします。母集団の分布の形は問いません(一様でも、二項でも、いびつな形でもよい)。このとき標本平均 $\bar{X}$ を標準化した量について、次が成り立ちます。

FORMULA(中心極限定理)

$\bar{X}$ の期待値は $\mu$、標準偏差は $\sigma/\sqrt{n}$(前回 2-13b で導出)なので、これで標準化すると、 $$Z = \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \;\xrightarrow[\;n\to\infty\;]{d}\; N(0,1)$$ $n$ が大きくなるにつれ、$Z$ の分布は標準正規分布 $N(0,1)$ に近づきます($\xrightarrow{d}$ は「分布が近づく」の意味)。

標準化を解くと、標本平均そのものや、和 $S_n=\sum_{i=1}^{n} X_i$ についても次のように言えます。

FORMULA

$n$ が十分大きいとき、近似的に $$\bar{X} \approx N\!\left(\mu,\ \frac{\sigma^2}{n}\right), \qquad S_n = \sum_{i=1}^{n} X_i \approx N\!\left(n\mu,\ n\sigma^2\right)$$ が成り立ちます。和 $S_n$ では期待値が $n\mu$、分散が $n\sigma^2$ になる点に注意($\bar{X}=S_n/n$ から導けます)。

なぜこんなことが起きるのか(直感)

厳密な証明は2級の範囲を超えますが、直感はつかめます。$\bar{X}$ は「たくさんの独立な小さなゆらぎ $X_i$ を足し合わせて平均したもの」です。多数のランダムな要因が足し合わさるとき、それぞれの個性(もとの分布の形)は打ち消し合い、和の分布は釣鐘型に均(なら)されていく──これが中心極限定理の核心イメージです。身長や測定誤差が正規分布に従いやすいのも、無数の小さな要因の和だから、と説明できます。

n = 1(母集団) n = 2 n = 5 n を増やすと… n 大 → きれいな正規分布 N(0,1)

中心極限定理のイメージ:母集団がどんな形でも、標本平均は n を増やすほど正規分布の釣鐘型に近づく

POINT

大数の法則と中心極限定理はセットで理解します。大数の法則は「$\bar{X}$ が $\mu$ という一点に集まる」(中心はどこか)、中心極限定理は「集まる途中の $\bar{X}$ が正規分布という形をとる」(ばらつきの形はどうか)。後者があるから、$\bar{X}$ が $\mu$ からどれだけずれるかを正規分布の確率で精密に評価でき、区間推定や検定が可能になります。

2. 二項分布の正規近似

中心極限定理のもっとも身近な応用が、二項分布の正規近似です。二項分布 $\mathrm{Bin}(n,p)$ に従う確率変数 $X$ は、「成功なら $1$・失敗なら $0$」という独立な試行 $Y_1,\dots,Y_n$ の和 $X=\sum Y_i$ と見なせます。各 $Y_i$ は平均 $p$、分散 $p(1-p)$。まさに「独立な確率変数の和」なので、中心極限定理がそのまま使えるのです。

FORMULA

$n$ が十分大きいとき、二項分布は次の正規分布で近似できます。 $$\mathrm{Bin}(n,p) \approx N\big(np,\ np(1-p)\big)$$ 平均 $np$・分散 $np(1-p)$ は二項分布のものをそのまま受け継ぎます(和なので期待値は $n\cdot p$、分散は $n\cdot p(1-p)$)。

なぜ近似してよいのか

理由は2つあります。ひとつは上で述べたとおり、$X$ が独立な試行の和なので中心極限定理の前提を満たすこと。もうひとつは、二項分布が $0,1,2,\dots,n$ という等間隔の整数に確率を割り当てた、もともと釣鐘型に近い形をしていること(3級7-3で見た $\mathrm{Bin}(10,0.5)$ の左右対称な山を思い出してください)。$n$ を増やすほど、この階段状の山がなめらかな正規曲線に重なっていきます。

POINT(近似の目安)

近似が十分な精度になる目安は $$np \ge 5 \quad\text{かつ}\quad n(1-p) \ge 5$$ です($np\ge 10,\ n(1-p)\ge 10$ をより安全な基準とする教科書もあります)。$p$ が $0$ や $1$ に極端に近いと分布が片側に偏り、正規近似がずれます。この条件は「成功・失敗のどちらも十分な回数が見込める」ことを意味します。

3. 連続修正 ─ 階段を曲線に合わせる工夫

ここで小さな、しかし大事な落とし穴があります。二項分布は離散(とびとびの整数)なのに、正規分布は連続です。離散の確率を連続の面積で近似するとき、そのまま当てはめると系統的なズレが出ます。これを補うのが連続修正(半整数補正)です。

考え方はこうです。二項分布で「$X=k$」という1本の棒は、面積で見ると幅 $1$ の長方形、すなわち $k-0.5$ から $k+0.5$ までの区間に対応すると考えます。だから「$X\le k$」の確率を正規分布で測るときは、$k$ ちょうどではなく、棒の右端 $k+0.5$ までの面積を取るのが正しい、というわけです。

k k+0.5 棒の右端 k+0.5 まで面積を取る

連続修正:離散の棒(幅1の長方形)を連続曲線に合わせるため、X≤k は k+0.5 までの面積で近似する

FORMULA(連続修正)

$X \sim \mathrm{Bin}(n,p)$、$\Phi$ を標準正規分布の累積分布関数とすると、 $$P(X \le k) \approx \Phi\!\left(\frac{k+0.5-np}{\sqrt{np(1-p)}}\right)$$ 同様に、$P(X \ge k) \approx 1-\Phi\!\left(\dfrac{k-0.5-np}{\sqrt{np(1-p)}}\right)$。
ポイントは「含めたい端は外側へ $0.5$ ずらす」こと。$X\le k$ は $k$ を含めたいので $+0.5$、$X\ge k$ は $k$ を含めたいので $-0.5$ します。

4. 数値例 ─ 真の二項確率と比べる

実際に正規近似+連続修正を使い、真の二項確率とどれだけ合うかを見ます。

EXAMPLE 1(コイン100回)

公正なコインを $100$ 回投げ、表の回数を $X\sim\mathrm{Bin}(100,\,0.5)$ とします。表が $55$ 回以下になる確率 $P(X\le 55)$ を求めましょう。

まず目安の確認:$np=100\times0.5=50\ge 5$、$n(1-p)=50\ge 5$。近似してよい条件を満たします。

平均 $np=50$、分散 $np(1-p)=100\times0.5\times0.5=25$、標準偏差 $\sqrt{25}=5$。連続修正を入れて、 $$P(X\le 55)\approx \Phi\!\left(\frac{55+0.5-50}{5}\right)=\Phi\!\left(\frac{5.5}{5}\right)=\Phi(1.1)\approx 0.8643$$

  • 正規近似+連続修正:約 0.8643
  • 真の二項確率:約 0.8644
  • (参考)連続修正なし $\Phi(50/5\text{の補正抜き})=\Phi(1.0)\approx 0.8413$ → 真値から約 $0.023$ もずれる

連続修正ありなら真値とほぼ一致(差は $0.0001$ 程度)。連続修正を入れるだけで精度が劇的に上がることがわかります。

EXAMPLE 2(p が 0.5 でない場合)

ある作業の成功率が $p=0.3$。$n=50$ 回行うとき、成功回数 $X\sim\mathrm{Bin}(50,\,0.3)$ が$18$ 回以下になる確率 $P(X\le 18)$ は?

目安:$np=15\ge 5$、$n(1-p)=35\ge 5$。OK です。平均 $np=15$、分散 $np(1-p)=50\times0.3\times0.7=10.5$、標準偏差 $\sqrt{10.5}\approx 3.240$。連続修正を入れて、 $$P(X\le 18)\approx \Phi\!\left(\frac{18+0.5-15}{3.240}\right)=\Phi\!\left(\frac{3.5}{3.240}\right)=\Phi(1.080)\approx 0.8600$$

  • 正規近似+連続修正:約 0.8600
  • 真の二項確率:約 0.8594

$p$ が $0.5$ から外れても、目安を満たしていれば差は $0.001$ 未満。実用上まったく問題ない精度です。

問題正規近似+連続修正真の二項確率
$\mathrm{Bin}(100,0.5)$, $P(X\le 55)$0.86430.8644約 0.0001
$\mathrm{Bin}(50,0.3)$, $P(X\le 18)$0.86000.8594約 0.0006
さえちゃん
さえ

連続修正の $\pm 0.5$、向きを間違えやすいから注意! 「$X\le k$ なら $+0.5$、$X\ge k$ なら $-0.5$」──含めたい $k$ の棒を丸ごと拾うように外側へ広げると覚えてね。EXAMPLE 1 で見たとおり、修正ありとなしで精度が全然違うよ。試験でも修正の有無で答えが変わることがあるから要チェック!

5. 結論と使いどころ

POINT

中心極限定理は、「母集団の分布を知らなくても、標本平均(や和)の分布は正規分布で扱える」という強力な保証です。これがあるから、第3章の区間推定(標本平均 $\pm 1.96 \times \sigma/\sqrt{n}$ など)や、第4章の $z$ 検定が成り立ちます。「正規分布を仮定してよい根拠は何?」と問われたら、答えは中心極限定理です。

実務でも、アンケートの支持率(二項→正規近似)、製造ロットの不良率、A/Bテストの成功率比較など、「割合」や「平均」を扱う場面のほぼすべてがこの定理に支えられています。$n$ さえ十分なら、複雑なもとの分布を気にせず正規分布の道具一式が使える──これが推測統計の屋台骨です。

まとめ

第2章 2-13c、ポイントを整理します。

これで第2章「確率と確率分布」は完結です。次の 3-1 母集団と標本 から、いよいよ統計的推定の章へ。本ページで身につけた「標本平均は正規分布で扱える」という土台の上に、推定・検定の理論を組み上げていきます。

さえちゃん
さえ

第2章おつかれさま! 中心極限定理は2級全体で一番大事と言っても過言じゃないよ。「母集団の形を問わず正規になる」──この一言を体に染み込ませてね。次の章からは、いよいよこの定理を武器に母集団を推定していくよ。ここまで来たあなたなら大丈夫!