期待値 — 定義と線形性の導出
3級でも触れた期待値 $E[X]$。2級では「定義から出発して、なぜそう計算してよいのか」を式変形で追えるようにします。本ページの主役は期待値の線形性──$E[aX+b]=aE[X]+b$ や $E[X+Y]=E[X]+E[Y]$ という、推定・検定の全章を下支えする性質です。
うれしいことに、この線形性は「2つの変数が仲良し(独立)かどうかに関係なく」いつでも成り立ちます。なぜ独立がいらないの? という疑問を、式をひとつずつ追いながら一緒に確かめていきましょう。ここを押さえておくと、第3章で出てくる標本平均 $\bar{X}$ の計算がぐっとラクになりますよ。
3級では「期待値=重み付き平均」って習ったよね。2級では、その期待値が持つ「線形性」という超便利な性質を、ちゃんと式で証明していくよ。暗記じゃなくて、紙とペンで追えるようになるのが目標!
1. 期待値の定義(直感)
まず出発点となる定義を、3級の復習も兼ねて固めます。期待値とは確率変数の「確率を重みにした平均」であり、分布の重心にあたる値です。離散と連続で式の見た目は変わりますが、考え方は同じ「値 × 確率(密度)を足し集める」です。
離散型:確率変数 $X$ が値 $x_1, x_2, \dots, x_n$ をそれぞれ確率 $p_1, p_2, \dots, p_n$ で取るとき $$E[X] = \sum_{i=1}^{n} x_i\, p_i$$ 連続型:確率密度関数を $f(x)$ とするとき $$E[X] = \int_{-\infty}^{\infty} x\, f(x)\, dx$$
離散の $\sum$ が連続では $\int$ に、確率 $p_i$ が密度 $f(x)\,dx$ に置き換わっただけです。以降の導出は離散型($\sum$)で示しますが、$\sum$ を $\int$ に読み替えればそのまま連続型でも成り立ちます。途中で使う性質は和(積分)の線形性だけだからです。
なぜ「線形性」を導出したいのか
統計学では、$X$ そのものよりも $aX+b$ や $X+Y$ のように確率変数を組み合わせた量の期待値が知りたくなる場面がたくさんあります。たとえば標本平均 $\bar{X}=\frac{1}{n}\sum X_i$ の期待値ですね。これを毎回、定義式に戻って計算するのはけっこう大変。でも「期待値はバラバラに分けられる」とわかっていれば、あとは流れ作業で計算できます。だから、まずこの性質を証明しておきたいのです。
2. 準備:関数 $g(X)$ の期待値
線形性を導く前に、ひとつだけ道具を用意します。$X$ の関数 $g(X)$ の期待値です。$g(X)$ もまた確率変数なので期待値を持ちますが、わざわざ $g(X)$ の分布を求め直さなくても、次のように $X$ の分布のまま計算できます。
$$E[g(X)] = \sum_{i=1}^{n} g(x_i)\, p_i$$ $X$ が取りうる各値 $x_i$ に $g$ を通した値 $g(x_i)$ を、もとの確率 $p_i$ で重み付けして足す、というだけです。
これは「無意識の統計家の法則(LOTUS)」と呼ばれる関係です。直感的には、$X=x_i$ が起きる確率は $p_i$ のまま変わらず、そのとき $g(X)$ が取る値が $g(x_i)$ になるだけ、と考えれば自然です。この道具を使うと、$g(X)=aX+b$ とおくだけで線形変換の期待値が一気に出ます。
3. 定数倍と定数の足し算:$E[aX+b]=aE[X]+b$(導出★)
ここからが本ページの山場です。まずは1つの確率変数を $aX+b$ の形に変換したときの期待値を導きます。$a,\,b$ は定数とします。
導出
$$ \begin{aligned} E[aX+b] &= \sum_{i=1}^{n} (a x_i + b)\, p_i &&\text{(前節の } g(x_i)=ax_i+b \text{ を代入)}\\[2pt] &= \sum_{i=1}^{n} \big(a x_i p_i + b p_i\big) &&\text{(各項を展開)}\\[2pt] &= a\sum_{i=1}^{n} x_i p_i + b\sum_{i=1}^{n} p_i &&\text{(定数 } a,b \text{ を } \textstyle\sum \text{ の外へ)}\\[2pt] &= a\,E[X] + b\cdot 1 &&\Big(\textstyle\sum x_i p_i = E[X],\ \ \sum p_i = 1\Big)\\[2pt] &= a\,E[X] + b \end{aligned} $$
使った前提は2つだけです。ひとつは和の線形性(足し算とスカラー倍は $\sum$ の外に出せる)、もうひとつは確率の総和が1($\sum_{i=1}^{n} p_i = 1$)という確率分布の大原則。この2つ目が、定数 $b$ がそのまま残る理由です。$b$ は全ての結果に等しく上乗せされるので、確率全体(合計1)で平均しても $b$ のまま、というわけです。
$$E[aX+b] = a\,E[X] + b$$ 特別な場合として、$a=0$ なら $E[b]=b$(定数の期待値はその定数)、$b=0$ なら $E[aX]=aE[X]$(定数倍は外に出せる)。
4. 和の期待値:$E[X+Y]=E[X]+E[Y]$(導出★・最重要)
次は、2つの確率変数 $X$ と $Y$ の和です。ここが線形性のいちばん大事なところ。$X$ と $Y$ が独立でなくても成り立つ──この事実を、式でしっかり確かめます。そのために、$X$ と $Y$ を同時に見る同時分布からスタートします。
準備:同時分布と周辺分布
$X$ が値 $x_i$、$Y$ が値 $y_j$ を「同時に」取る確率を $p_{ij}=P(X=x_i,\,Y=y_j)$ と書きます。これが同時分布です。ここから片方の変数だけに注目して確率を足し合わせると、その変数単独の分布(周辺分布)に戻ります。
周辺分布($Y$ について足し集めると $X$ の分布に戻る): $$P(X=x_i) = \sum_{j} p_{ij}, \qquad P(Y=y_j) = \sum_{i} p_{ij}$$ この関係は独立性とは無関係に、つねに成り立ちます。
導出
和 $X+Y$ も2変数の関数なので、§2 の考え方を2変数に広げ、同時確率 $p_{ij}$ を重みにして「$x_i+y_j$」を足し集めます。
$$ \begin{aligned} E[X+Y] &= \sum_{i}\sum_{j} (x_i + y_j)\, p_{ij} &&\text{(同時分布で定義)}\\[2pt] &= \sum_{i}\sum_{j} x_i p_{ij} \;+\; \sum_{i}\sum_{j} y_j p_{ij} &&\text{(和を2つに分ける)}\\[2pt] &= \sum_{i} x_i \Big(\sum_{j} p_{ij}\Big) \;+\; \sum_{j} y_j \Big(\sum_{i} p_{ij}\Big) &&\text{(各変数に関係ない因子を外へ)}\\[2pt] &= \sum_{i} x_i\, P(X=x_i) \;+\; \sum_{j} y_j\, P(Y=y_j) &&\text{(周辺分布に戻す)}\\[2pt] &= E[X] + E[Y] \end{aligned} $$
導出のどこにも「独立」という仮定は登場していません。使ったのは、和を分けられること(線形性)と、同時分布を片側で足すと周辺分布に戻ること、の2つだけ。だから $E[X+Y]=E[X]+E[Y]$ は、$X$ と $Y$ がどんなに関連し合っていても無条件で成り立ちます。独立性が要るのは、後で学ぶ分散の和(2-5c)や、$E[XY]=E[X]E[Y]$ のときです。ここを混同しないことが2級の頻出ポイントです。
「期待値の和は無条件、分散の和は独立が必要」──ここ、試験でめちゃくちゃ狙われるよ! $E[X+Y]$ は仲が良かろうが悪かろうが必ず分解できる。でも $V[X+Y]$ は、2人が独立じゃないと $V[X]+V[Y]$ にならないの。今のうちにセットで覚えておこう!
5. 一般化:線形性のまとめ
§3 と §4 を組み合わせると、定数倍と和をいくらでも繰り返せます。確率変数 $X_1, X_2, \dots, X_n$ と定数 $a_1, a_2, \dots, a_n$ について、次が成り立ちます。
$$E\!\left[\sum_{i=1}^{n} a_i X_i\right] = \sum_{i=1}^{n} a_i\, E[X_i]$$ これが期待値の線形性です。$E[aX+b]=aE[X]+b$ と $E[X+Y]=E[X]+E[Y]$ を一般化したもので、どの $X_i$ どうしの関係(独立かどうか)にもよりません。
6. 結論と使いどころ
導いた線形性が、実際の場面でどう効くかを数値例で確認します。まずは線形変換から。
ある試験の素点 $X$ が $E[X]=58$ 点だったとします。これを $Y = 1.2X + 10$ で換算した点 $Y$ の期待値は?
$E[Y] = E[1.2X + 10] = 1.2\,E[X] + 10 = 1.2 \times 58 + 10 = 79.6$ 点。
$Y$ の分布を作り直す必要はなく、$E[X]$ さえ分かれば一発です。これが線形性のご利益です。
サイコロを2個振り、出目を $X,\,Y$ とします。合計 $X+Y$ の期待値は? 1個の期待値は $E[X]=E[Y]=3.5$ なので、
$E[X+Y] = E[X] + E[Y] = 3.5 + 3.5 = 7$。
2個のサイコロは独立ですが、ここでは独立性は使っていません。仮に「2個の出目が必ず同じになる細工サイコロ」でも、各々の期待値が $3.5$ なら合計の期待値はやはり $7$ です。
同じ母集団から無作為に取った $X_1,\dots,X_n$ がいずれも $E[X_i]=\mu$ をみたすとき、標本平均 $\bar{X}=\frac{1}{n}\sum_{i=1}^{n} X_i$ の期待値は?
$$E[\bar{X}] = E\!\left[\frac{1}{n}\sum_{i=1}^{n} X_i\right] = \frac{1}{n}\sum_{i=1}^{n} E[X_i] = \frac{1}{n}\cdot n\mu = \mu$$
標本平均の期待値が母平均 $\mu$ に一致する──これは第3章「不偏性」の核心ですが、その証明は線形性ひとつで済んでしまいます。今日の山場がそのまま後の章の土台になる、という好例です。
試験で複雑な確率変数の期待値を聞かれたら、まず線形性でバラすのが鉄板の第一手です。合言葉は「定数倍は外に、足し算の定数はそのまま、和はバラバラに」。しかも独立かどうかを気にしなくていい──この身軽さこそ、期待値が推定や検定のあちこちで大活躍する理由なんです。
まとめ
第2章 2-5a、ポイントを整理します。
- 定義:離散 $E[X]=\sum_{i=1}^{n} x_i p_i$、連続 $E[X]=\int x f(x)\,dx$。確率を重みにした平均
- $g(X)$ の期待値:$E[g(X)]=\sum g(x_i)p_i$(分布を作り直さず計算できる)
- 線形変換:$E[aX+b]=aE[X]+b$。根拠は和の線形性と $\sum p_i = 1$
- 和:$E[X+Y]=E[X]+E[Y]$。同時分布→周辺分布で導け、独立性は不要
- 一般化:$E\big[\sum a_i X_i\big]=\sum a_i E[X_i]$
- 注意:独立が要るのは分散の和や $E[XY]=E[X]E[Y]$。期待値の和とは別物
次回 2-5b 分散 では、ばらつきの指標 $V[X]$ を定義し、計算でよく使う $V[X]=E[X^2]-(E[X])^2$ を導出します。今日の「$g(X)$ の期待値」と「線形性」が、さっそく分散の式変形で活躍します。
線形性、導出までしっかり追えたね! 「期待値は無条件でバラせる」が今日の合言葉。次は分散だよ。期待値の道具をそのまま使うから、今日のうちに $E[aX+b]$ の導出を一度自分の手で書いてみてね!