第2章 2-5b / 確率と確率分布

分散・標準偏差 — $V[X]=E[X^2]-(E[X])^2$ の導出

このページで学ぶこと

期待値 $E[X]$ が分布の「中心」を表すなら、今回の主役分散 $V[X]$ は分布の「ばらつき（散らばり）」を表す量です。定義は $V[X]=E[(X-\mu)^2]$。中心 $\mu=E[X]$ からのズレを2乗して平均したもの、という素直な発想です。

本ページの山場は、定義式を計算向きに変形した$V[X]=E[X^2]-(E[X])^2$ の導出です。ここでは前回 2-5a で手に入れた期待値の線形性がさっそく活躍します。さらに標準偏差 $\sigma=\sqrt{V[X]}$、線形変換の分散 $V[aX+b]=a^2V[X]$ まで、ぜんぶ定義から1ステップずつ追っていきましょう。

さえ

期待値が「中心」なら、分散は「散らばり具合」だよ。今日のキモは $V[X]=E[X^2]-(E[X])^2$ の導出！　前回の期待値の線形性を道具に使うから、2-5aを忘れちゃった人はちょっと戻ってきてね。展開して線形性で整理するだけ、っていう流れがわかれば怖くないよ。

1. 分散とは何か（直感）

期待値が同じ $2$つの分布でも、「中心の近くにギュッと集まっている」のか「中心から大きく外れた値もよく出る」のかで、性質はまるで違います。たとえば「いつも50点前後の人」と「0点も100点も取る人」は、平均が同じ50点でも別人ですよね。このばらつきの大きさを1つの数で測るのが分散です。

では、ばらつきをどう数値化するか。素直に考えると「中心 $\mu=E[X]$ からどれだけ離れているか」、つまり偏差 $X-\mu$ を見たくなります。ところが偏差をそのまま平均すると $E[X-\mu]=E[X]-\mu=\mu-\mu=0$ となり、プラスとマイナスが打ち消し合って必ず $0$ になってしまいます。これでは散らばりが測れません。

そこで偏差を2乗してから平均します。2乗すれば符号が消え、中心から離れるほど大きな値で効いてくれます。これが分散の定義です。

2. 分散の定義

FORMULA

確率変数 $X$ の期待値を $\mu=E[X]$ とするとき、$X$ の分散を $$V[X] = E\big[(X-\mu)^2\big]$$ と定義します。「中心からのズレ（偏差）を2乗した値の、期待値（平均）」です。

離散型なら、前回学んだ「$g(X)$ の期待値（LOTUS）」を $g(X)=(X-\mu)^2$ として使えば、次のように具体的に計算できます。

FORMULA

$$V[X] = \sum_{i=1}^{n} (x_i - \mu)^2\, p_i$$ 連続型なら $\sum$ を $\int$ に、$p_i$ を $f(x)\,dx$ に読み替えて $\displaystyle V[X]=\int_{-\infty}^{\infty}(x-\mu)^2 f(x)\,dx$。考え方は同じです。

定義に2乗が入っているので、分散の単位は元のデータの2乗の単位になります（たとえば身長[cm]なら分散は[cm²]）。これは少し扱いにくいので、あとで標準偏差に戻す出番が来ます。まずはこの定義を、計算しやすい形に変形しましょう。

3. 計算式 $V[X]=E[X^2]-(E[X])^2$（導出★）

定義 $V[X]=E[(X-\mu)^2]$ は意味は明快ですが、毎回「まず $\mu$ を求めて、各値との差を2乗して…」とやると手間がかかります。そこで定義を展開して、もっと使いやすい形に整えます。ここが本ページの山場です。

導出

ポイントは、$\mu=E[X]$ は定数（確率変数ではなく、ただの数）だということ。だから期待値の線形性（2-5a）で $\sum$ や $E$ の外に出せます。これを踏まえて、定義の中身 $(X-\mu)^2$ を展開していきます。

DERIVATION

$$ \begin{aligned} V[X] &= E\big[(X-\mu)^2\big] &&\text{(定義)}\\[2pt] &= E\big[X^2 - 2\mu X + \mu^2\big] &&\text{(2乗を展開)}\\[2pt] &= E[X^2] - E[2\mu X] + E[\mu^2] &&\text{(期待値の線形性で和を分ける)}\\[2pt] &= E[X^2] - 2\mu\,E[X] + \mu^2 &&\text{(定数 } \mu \text{ を外へ、} E[\mu^2]=\mu^2 \text{)}\\[2pt] &= E[X^2] - 2\mu\cdot\mu + \mu^2 &&\text{(} E[X]=\mu \text{ を代入)}\\[2pt] &= E[X^2] - 2\mu^2 + \mu^2 \\[2pt] &= E[X^2] - \mu^2 \\[2pt] &= E[X^2] - (E[X])^2 &&\text{(} \mu=E[X] \text{ に戻す)} \end{aligned} $$

要所は3行目と4行目です。$\mu$ は定数なので $E[2\mu X]=2\mu\,E[X]$ と外に出せ、定数の期待値は $E[\mu^2]=\mu^2$ そのもの。ここで使ったのは前回の線形性 $E[aX+b]=aE[X]+b$ だけです。最後に $E[X]=\mu$ を代入して整理すると、$-2\mu^2+\mu^2=-\mu^2$ となり、すっきりした形が残ります。

FORMULA

$$V[X] = E[X^2] - (E[X])^2$$ 「2乗の期待値」から「期待値の2乗」を引く、と覚えます。実務でも試験でも、分散の計算はほぼこの式を使います。$E[X^2]$ と $E[X]$ の2つさえ求めれば分散が出るので、定義のまま計算するよりずっとラクです。

POINT

2つの式は同じものの言い換えです。意味を見たいときは定義 $E[(X-\mu)^2]$、手を動かして計算したいときは $E[X^2]-(E[X])^2$、と使い分けましょう。なお $V[X]=E[(X-\mu)^2]\ge0$（2乗の平均だから）なので、分散はつねに $0$ 以上。これは $E[X^2]\ge(E[X])^2$ ということでもあります。

4. 標準偏差 $\sigma$

分散は単位が「元の2乗」になってしまうのが難点でした。そこで分散の正の平方根を取って、単位を元に戻したものが標準偏差です。

FORMULA

$$\sigma = \sqrt{V[X]}$$ 標準偏差 $\sigma$ は元のデータと同じ単位（[cm]や[点]）になるので、「だいたいこのくらい中心からズレる」という散らばりの大きさを、直感的なスケールで読めます。分散 $V[X]$ を $\sigma^2$ と書くこともよくあります。

5. 線形変換の分散 $V[aX+b]=a^2V[X]$（導出★）

期待値では $E[aX+b]=aE[X]+b$ でした。では分散はどうなるでしょう。直感を先に言うと、定数 $b$ を足してもばらつきは変わらない（分布全体が右に $b$ ずれるだけで、形は同じ）し、$a$ 倍すると散らばりも $a$ 倍に広がるけれど、分散は2乗で測るので $a^2$ 倍になります。これを定義から確かめましょう。

導出

まず変換後の期待値は、線形性から $E[aX+b]=aE[X]+b=a\mu+b$。これが新しい中心です。定義 $V[Y]=E[(Y-E[Y])^2]$ に $Y=aX+b$ を入れます。

DERIVATION

$$ \begin{aligned} V[aX+b] &= E\big[\,(aX+b) - E[aX+b]\,\big]^2 &&\text{(分散の定義)}\\[2pt] &= E\big[\,(aX+b) - (a\mu+b)\,\big]^2 &&\text{(} E[aX+b]=a\mu+b \text{ を代入)}\\[2pt] &= E\big[\,(aX - a\mu)\,\big]^2 &&\text{(} +b \text{ と } -b \text{ が打ち消す)}\\[2pt] &= E\big[\,a^2 (X-\mu)^2\,\big] &&\text{(} a \text{ でくくって2乗)}\\[2pt] &= a^2\, E\big[(X-\mu)^2\big] &&\text{(定数 } a^2 \text{ を外へ)}\\[2pt] &= a^2\, V[X] &&\text{(分散の定義に戻す)} \end{aligned} $$

3行目に注目してください。$+b$（足した定数）と、新しい中心に含まれる $-b$ がちょうど打ち消し合って消えます。これが「定数を足してもばらつきは変わらない」ことの正体です。一方 $a$ は外に $a^2$ となって残ります。定義が「中心からのズレ」を見ている以上、全体を平行移動させる $b$ は影響しない、というわけです。

FORMULA

$$V[aX+b] = a^2\, V[X]$$ 標準偏差で言えば $\sqrt{a^2 V[X]} = |a|\,\sigma$。特別な場合として、$V[b]=0$（定数はばらつかない）、$V[aX]=a^2V[X]$、$V[X+b]=V[X]$（平行移動で不変）。

6. 数値例：サイコロの分散

公平なサイコロの出目 $X$ で、導いた式を実際に使ってみます。前回 $E[X]=3.5$ は求めました。あとは $E[X^2]$ がわかれば $V[X]=E[X^2]-(E[X])^2$ で一発です。

EXAMPLE（サイコロの分散）

まず $E[X^2]$。LOTUS で、各出目を2乗した値を確率 $\tfrac{1}{6}$ で重み付けして足します。

$$E[X^2] = \sum_{i=1}^{6} x_i^2\,p_i = \frac{1^2+2^2+3^2+4^2+5^2+6^2}{6} = \frac{1+4+9+16+25+36}{6} = \frac{91}{6}$$

次に $E[X]=3.5=\tfrac{7}{2}$ なので $(E[X])^2=\tfrac{49}{4}$。これを引きます。

$$V[X] = E[X^2] - (E[X])^2 = \frac{91}{6} - \frac{49}{4} = \frac{182}{12} - \frac{147}{12} = \frac{35}{12} \approx 2.917$$

サイコロの分散は $\dfrac{35}{12}$。標準偏差はその平方根で $\sigma=\sqrt{35/12}\approx 1.708$ です。出目が中心 $3.5$ からおよそ $1.7$ ぶんばらつく、という読み方ができます。

POINT

定義 $\sum (x_i-3.5)^2 \tfrac{1}{6}$ で計算しても、もちろん同じ $\tfrac{35}{12}$ になります。けれど分数の偏差を6個も2乗するのは面倒。$E[X^2]$ と $(E[X])^2$ の引き算なら、整数の2乗で済んでスッキリ。これが計算式のありがたみです。

まとめ

第2章 2-5b、ポイントを整理します。

定義：$V[X]=E[(X-\mu)^2]$（$\mu=E[X]$）。中心からのズレを2乗して平均
計算式（山場）：$V[X]=E[X^2]-(E[X])^2$。導出は定義を展開し、$\mu$ を定数として線形性で整理
標準偏差：$\sigma=\sqrt{V[X]}$。元のデータと同じ単位に戻る
線形変換：$V[aX+b]=a^2V[X]$。$b$ は中心の $-b$ と打ち消し合って消える、$a$ は2乗で効く
性質：$V[X]\ge0$、$V[b]=0$。前回の期待値の線形性が導出の道具
数値例：サイコロは $V[X]=\tfrac{35}{12}\approx2.917$、$\sigma\approx1.708$

次回 2-5c 確率変数の和と差では、$2$つの変数 $X,Y$ を足したり引いたりしたときの分散を扱います。ここで初めて独立性と共分散が登場し、「期待値の和は無条件だが、分散の和は独立が必要」という2級頻出の対比が完成します。

さえ

$V[X]=E[X^2]-(E[X])^2$ の導出、追えたかな？　「展開して、$\mu$ は定数だから外に出して、線形性で整理」──この流れが全部だよ。$V[aX+b]=a^2V[X]$ で $b$ が消える理由も、自分の手で一度書いてみてね。次は和と差、いよいよ共分散の登場だよ！