離散分布① ベルヌーイ・二項分布 — 和への分解で期待値と分散を導出
いよいよ具体的な確率分布に入ります。最初の主役はベルヌーイ分布と二項分布。「成功か失敗か」の試行をモデル化する、もっとも基本的な離散分布です。3級では公式 $E[X]=np$、$V[X]=np(1-p)$ を暗記しましたが、2級ではなぜそうなるのかを導出します。
本ページの山場は、二項分布を「独立な $n$ 個のベルヌーイの和」$X=\sum_{i=1}^{n}X_i$ と見るアイデアです。この見方ができると、期待値の線形性(2-5a)と独立な和の分散(2-5c)を使うだけで、二項分布の $E[X]$ と $V[X]$ がスルッと出てきます。難しい組合せ計算は要りません。これまでに磨いた道具がフル稼働する、気持ちのいい回です。
今日のキーワードは「和に分解」! 二項分布をいきなり相手にすると大変だけど、「コイン1回」のベルヌーイをたくさん足したもの、と見るとびっくりするほどラクになるよ。これまで学んだ期待値・分散の技がここで全部つながるの、感動するよ!
1. ベルヌーイ分布 ─ いちばん小さな確率分布
ベルヌーイ分布は、結果が「成功」か「失敗」かの2通りしかない1回の試行(ベルヌーイ試行)をモデル化する分布です。成功を $1$、失敗を $0$ という数値に対応させ、成功確率を $p$(失敗確率は $1-p$)とします。
成功確率 $p$ のベルヌーイ分布に従う $X$ の確率関数(pmf): $$P(X=1)=p,\qquad P(X=0)=1-p$$ まとめて1本の式にすると($x=0,1$): $$P(X=x)=p^{x}(1-p)^{1-x}$$ $x=1$ なら $p^1(1-p)^0=p$、$x=0$ なら $p^0(1-p)^1=1-p$ となり、上の2式に一致します。
期待値の導出
取りうる値は $0$ と $1$ だけなので、定義どおり「値 × 確率」を足すだけです。
$$ \begin{aligned} E[X] &= \sum_{x=0}^{1} x\, P(X=x) &&\text{(期待値の定義)}\\[2pt] &= 0\cdot(1-p) + 1\cdot p &&\text{(}x=0,1\text{ を代入)}\\[2pt] &= p \end{aligned} $$
分散の導出
分散は $V[X]=E[X^2]-(E[X])^2$(2-5b)を使います。$X$ は $0$ か $1$ なので $X^2=X$($0^2=0,\ 1^2=1$)が成り立ち、$E[X^2]=E[X]=p$ となるのがポイントです。
$$ \begin{aligned} E[X^2] &= 0^2\cdot(1-p) + 1^2\cdot p = p &&\text{(}X^2=X\text{ なので }E[X^2]=p\text{)}\\[2pt] V[X] &= E[X^2]-(E[X])^2 &&\text{(分散の公式 2-5b)}\\[2pt] &= p - p^2 &&\text{(}E[X^2]=p,\ E[X]=p\text{ を代入)}\\[2pt] &= p(1-p) \end{aligned} $$
ベルヌーイ分布のまとめ: $$E[X]=p,\qquad V[X]=p(1-p)$$ 分散 $p(1-p)$ は $p=0.5$ のとき最大($0.25$)になります。「成功と失敗が五分五分のときがいちばん予測しにくい=ばらつきが大きい」という直感とぴったり合いますね。
2. 二項分布 ─ ベルヌーイを $n$ 回くり返す
二項分布は、成功確率 $p$ のベルヌーイ試行を独立に $n$ 回くり返したときの「成功回数」$X$ の分布です。記号で $\mathrm{Bin}(n,p)$ と書きます。たとえばコインを10回投げて表が出る回数、製品を100個検査して不良品が出る個数などがこれにあたります。
$\mathrm{Bin}(n,p)$ に従う $X$ の確率関数(pmf): $$P(X=k)=\binom{n}{k}p^{k}(1-p)^{n-k}\qquad(k=0,1,\dots,n)$$ ここで $\binom{n}{k}$ は「$n$ 回のうちどの $k$ 回が成功か」の選び方の総数(組合せ)です。
なぜこの式になるのか
ある特定の順番で「成功 $k$ 回・失敗 $n-k$ 回」が起きる確率は、独立なので掛け算で $p^{k}(1-p)^{n-k}$ です。成功する回が何回目かの組合せが $\binom{n}{k}$ 通りあり、それらは互いに排反なので足し合わせて $\binom{n}{k}p^{k}(1-p)^{n-k}$ になります。これが二項分布の pmf の意味です。
$\mathrm{Bin}(5,\,0.4)$ の確率分布。成功回数 $k=2$($=np$ 付近)が最も起こりやすい
3. 山場:二項分布を「ベルヌーイの和」と見る(★)
ここからが本ページの核心です。期待値と分散を pmf から直接計算しようとすると、$\binom{n}{k}$ を含む和を扱うことになり骨が折れます。そこで発想を変えます。「成功回数」は、各試行の成功・失敗を $0/1$ で記録したものの合計だと見るのです。
直感:成功回数 = 1の合計
$i$ 回目の試行について、成功なら $1$、失敗なら $0$ をとる確率変数 $X_i$ を考えます。これは成功確率 $p$ のベルヌーイ分布に従います。すると $n$ 回の成功回数 $X$ は、この $X_i$ を全部足したものに等しくなります。
二項分布の和分解:$X_1,X_2,\dots,X_n$ を互いに独立で同一のベルヌーイ分布(成功確率 $p$)に従う確率変数とすると、 $$X = \sum_{i=1}^{n} X_i \ \sim\ \mathrm{Bin}(n,p)$$ 「独立同分布(i.i.d.)なベルヌーイの和が二項分布」──これがすべての出発点です。
導出その1:期待値 $E[X]=np$
和の期待値は、各項の期待値の和(期待値の線形性、2-5a)。しかも線形性は独立性を必要としないので、無条件で分解できます。各 $X_i$ はベルヌーイなので $E[X_i]=p$ でした。
$$ \begin{aligned} E[X] &= E\!\left[\sum_{i=1}^{n} X_i\right] &&\text{(和に分解)}\\[2pt] &= \sum_{i=1}^{n} E[X_i] &&\text{(期待値の線形性 2-5a。独立は不要)}\\[2pt] &= \sum_{i=1}^{n} p &&\text{(各 } X_i \text{ はベルヌーイなので } E[X_i]=p\text{)}\\[2pt] &= n\,p \end{aligned} $$
導出その2:分散 $V[X]=np(1-p)$
分散の方は少し注意が必要です。和の分散が各項の分散の和になるのは、変数どうしが独立なときだけ(2-5c)。今回は各試行が独立にくり返されているので、$X_1,\dots,X_n$ は独立。だから安心して分散を足し合わせられます。各 $X_i$ の分散はベルヌーイなので $V[X_i]=p(1-p)$ でした。
$$ \begin{aligned} V[X] &= V\!\left[\sum_{i=1}^{n} X_i\right] &&\text{(和に分解)}\\[2pt] &= \sum_{i=1}^{n} V[X_i] &&\text{(独立なので分散の和に分解できる 2-5c)}\\[2pt] &= \sum_{i=1}^{n} p(1-p) &&\text{(各 } X_i \text{ はベルヌーイなので } V[X_i]=p(1-p)\text{)}\\[2pt] &= n\,p(1-p) \end{aligned} $$
二項分布 $\mathrm{Bin}(n,p)$ のまとめ: $$E[X]=np,\qquad V[X]=np(1-p),\qquad \sigma=\sqrt{np(1-p)}$$ 期待値の導出は独立を使わず、分散の導出は独立を使う。この使い分けが2級の最頻出ポイントです。$E[X+Y]=E[X]+E[Y]$ は無条件、$V[X+Y]=V[X]+V[Y]$ は独立が必要──ここをセットで思い出しましょう。
同じ「和に分解」でも、期待値は独立いらず・分散は独立が必要──ここ、ホントによく狙われるよ! 二項分布で分散が足せるのは、各試行が独立にくり返されてるおかげなの。「なんで足せたんだっけ?」って自分にツッコめるようになったら完璧だよ!
4. 数値例で確かめる
図でも使った $\mathrm{Bin}(5,\,0.4)$、つまり成功確率 $0.4$ の試行を5回くり返すとき、成功回数 $X$ の期待値・分散・標準偏差を求めます。
- 期待値:$E[X]=np=5\times0.4=\mathbf{2}$
- 分散:$V[X]=np(1-p)=5\times0.4\times0.6=\mathbf{1.2}$
- 標準偏差:$\sigma=\sqrt{1.2}\approx\mathbf{1.10}$
「平均2回、ばらつき1回ちょっと」。図の山が $k=2$ を中心に広がっている様子と一致しますね。
同じ $\mathrm{Bin}(5,\,0.4)$ で、ちょうど2回成功する確率 $P(X=2)$ は?
$$P(X=2)=\binom{5}{2}(0.4)^2(0.6)^3 = 10\times0.16\times0.216 = 0.3456$$ 約 $34.6\%$。これがこの分布で最も起こりやすい結果(最頻値)です。
不良率 $p=0.02$ の製品を $n=200$ 個検査します。不良品の個数 $X$ の期待値と標準偏差は?
- 期待値:$E[X]=200\times0.02=\mathbf{4}$ 個
- 分散:$V[X]=200\times0.02\times0.98=3.92$、標準偏差 $\sigma=\sqrt{3.92}\approx\mathbf{1.98}$ 個
「平均4個、だいたい ±2個」と見積もれます。和分解で導いた公式が、品質管理の現場でそのまま使える好例です。
まとめ
第2章 2-7、ポイントを整理します。
- ベルヌーイ分布:1回の試行。$P(X=x)=p^{x}(1-p)^{1-x}$、$E[X]=p$、$V[X]=p(1-p)$
- 二項分布 $\mathrm{Bin}(n,p)$:pmf は $P(X=k)=\binom{n}{k}p^{k}(1-p)^{n-k}$
- 和分解:$X=\sum_{i=1}^{n}X_i$(独立同分布なベルヌーイの和)と見るのが鍵
- 期待値:$E[X]=np$。線形性で導出(独立は不要)
- 分散:$V[X]=np(1-p)$。独立な和の分散で導出(独立が必要)
- 注意:期待値は無条件で足せるが、分散は独立があってはじめて足せる
次回 2-8 離散分布②(ポアソン・幾何分布) では、稀な事象の件数を表すポアソン分布と、初めて成功するまでの試行回数を表す幾何分布を学びます。ポアソン分布は、今日の二項分布の「$n$ 大・$p$ 小」の極限として顔を出します。今日の二項分布が、次回の土台になりますよ。
二項分布、組合せの難しい計算なしで期待値も分散も出せたね! 「和に分解 → 期待値は線形性 → 分散は独立性」の3ステップが今日のお土産だよ。次はポアソンと幾何──今日の二項分布がそのまま効いてくるから、自信もって進もう!