第3章 3-4 / 統計的推定

点推定（一致性・不偏性）— 不偏分散はなぜ $n-1$ で割るのか

このページで学ぶこと

いよいよ母集団を「推定」する章です。手元の標本から母平均 $\mu$ や母分散 $\sigma^2$ を一点の値でズバリ当てにいくのが点推定。まずは推定量（estimator＝確率変数 $\hat{\theta}$）と推定値（estimate＝実現値）の違いをはっきりさせ、よい推定量の条件である不偏性・一致性・有効性を整理します。

そして本ページの山場が、不偏分散 $s^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$ がなぜ「$n$ ではなく $n-1$ で割る」のか、という長年の疑問への答えです。$E[s^2]=\sigma^2$ を、式を一切飛ばさずに導きます。1-4で「分散は $n-1$ で割る」と天下りに覚えた式の、ちゃんとした理由がここでわかりますよ。

さえ

「分散ってなんで $n-1$ で割るの?」──統計を学ぶ人みんなが一度はつまずく謎、今日ついに解決するよ！　ポイントは「$\bar{X}$ を使った時点で、ばらつきがちょっと過小に見えちゃう」こと。その目減りを $n-1$ がきっちり埋め合わせるの。導出を追えば、暗記じゃなく納得できるはず！

1. 推定量と推定値 ─ 確率変数か、実現値か

推定の話を始める前に、絶対に区別したい2つの言葉があります。推定量と推定値です。母集団の知りたい数（母平均や母分散など）を一般に母数（パラメータ）と呼び、記号 $\theta$ で表します。これを標本から推測するための「計算の仕組み（式）」が推定量、その式に実際のデータを入れて出た「具体的な数」が推定値です。

POINT

推定量（estimator）：標本 $X_1,\dots,X_n$ の関数として書かれた確率変数。標本を取り直すたびに値が変わるので、ハットを付けて $\hat{\theta}$ と書きます（例：$\bar{X}=\frac{1}{n}\sum_{i=1}^{n} X_i$）。
推定値（estimate）：推定量に実際の観測データ $x_1,\dots,x_n$ を代入して得た一つの数（例：$\bar{x}=170.2$）。

大文字 $X$ で書くか小文字 $x$ で書くかが、まさにこの違いを表しています。推定量 $\hat{\theta}$ は確率変数なので、それ自身が分布（標本分布）を持ち、期待値 $E[\hat{\theta}]$ や分散 $V[\hat{\theta}]$ を考えられます。この「推定量を確率変数として眺める」視点が、これから出てくる不偏性・一致性・有効性すべての土台になります。

2. よい推定量の3つの条件

母数 $\theta$ を狙う推定量はいくらでも作れます。たとえば母平均なら、標本平均でも、標本の中央値でも、極端には「最初の1個だけ」でも推定量にはなります。では、どれがよい推定量なのか。判断の物差しが、次の3つの望ましい性質です。

(1) 不偏性 ─ 平均的にズレない

FORMULA（不偏性）

$$E[\hat{\theta}] = \theta$$ 推定量の期待値が、ぴたりと母数 $\theta$ に一致すること。これを満たす推定量を不偏推定量といいます。標本ごとに上にも下にもブレますが、何度も推定をやり直して平均すれば、過大評価も過小評価もなく真ん中に当たる──系統的な偏り（バイアス）がない、という意味です。

(2) 一致性 ─ $n$ を増やせば真の値に近づく

一致性は、標本サイズ $n$ を大きくしていくと、推定量 $\hat{\theta}$ が母数 $\theta$ にどんどん近づいていく性質です。データをたくさん集めれば、いくらでも正確になってくれる、という安心感を保証します。これは 2-13b 大数の法則がまさに標本平均について示したこと──$n\to\infty$ で $\bar{X}$ が $\mu$ に収束する──の一般化にあたります。

(3) 有効性 ─ ばらつきが小さいほどよい

不偏な推定量が2つあったら、どちらを選ぶか。答えは分散の小さいほうです。同じ「平均的に当たる」でも、ブレ幅が小さいほうが一発の推定が信頼できます。この「分散の小ささ」が有効性で、不偏推定量の中で分散が最小のものを最も有効な推定量と呼びます。

推定量の標本分布のイメージ：中心が θ にあるのが不偏、山が細い（分散が小さい）ほど有効。中心がずれていれば偏りがある。

POINT

3つの関係を一言で。不偏性は「中心が合っているか」、有効性は「山が細いか（ブレが小さいか）」、一致性は「$n$ を増やせば一点に集まるか」。射的にたとえると、不偏は的の中心を狙えていること、有効は弾痕の散らばりが小さいこと、です。理想は中心に当たり（不偏）、かつ散らばりが小さい（有効）推定量。

3. 標本平均の不偏性 ─ $E[\bar{X}]=\mu$

まず一番やさしい例で、不偏性の確認の練習をします。母平均 $\mu$ の推定量として標本平均 $\bar{X}=\frac{1}{n}\sum_{i=1}^{n} X_i$ を使うとき、これが不偏かどうか。各 $X_i$ は同じ母集団からの観測なので $E[X_i]=\mu$ をみたします。あとは 2-5a で導いた期待値の線形性を使うだけです。

DERIVATION

$$ \begin{aligned} E[\bar{X}] &= E\!\left[\frac{1}{n}\sum_{i=1}^{n} X_i\right] &&\text{(標本平均の定義)}\\[2pt] &= \frac{1}{n}\sum_{i=1}^{n} E[X_i] &&\text{(期待値の線形性)}\\[2pt] &= \frac{1}{n}\sum_{i=1}^{n} \mu &&\text{(各 } X_i \text{ は } E[X_i]=\mu \text{)}\\[2pt] &= \frac{1}{n}\cdot n\mu &&\text{(} \mu \text{ を } n \text{ 個足す)}\\[2pt] &= \mu \end{aligned} $$

FORMULA

$$E[\bar{X}] = \mu$$ 標本平均は母平均の不偏推定量です。線形性だけで証明でき、独立性すら要りません。さらに $V[\bar{X}]=\sigma^2/n$（2-13b）なので $n$ を増やすと分散は $0$ に近づき、一致性も満たします。標本平均は推定量の優等生なのです。

4. 不偏分散はなぜ $n-1$ で割るのか（導出★）

ここからが本ページの核心です。母分散 $\sigma^2=E[(X-\mu)^2]$ を推定したい。素直に考えると、偏差の2乗の平均、つまり $n$ で割った $$\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2$$ が候補です。ところが、これは系統的に母分散を過小評価してしまうのです。

直感 ─ $\bar{X}$ を使った分だけ「縮む」

理由はこうです。本当は母平均 $\mu$ からの散らばりを測りたいのに、$\mu$ は未知なので、代わりに手元の標本平均 $\bar{X}$ からの散らばりを測っています。ところが $\bar{X}$ は、まさにその標本のど真ん中になるよう計算された値。だから、どんな未知の $\mu$ よりも、$\bar{X}$ からの偏差2乗和のほうが必ず小さく（か等しく）なります。実際、平方和を最小にする中心は $\bar{X}$ である、という事実があるのです。自分で作った中心からの距離は、真の中心からの距離より短く見える──この目減りを正すのが $n-1$ の役割です。

準備：偏差平方和の分解

導出の鍵になる、ひとつの恒等式を用意します。$\bar{X}$ からの偏差平方和を、$\mu$ からの偏差平方和に置き換える式です。各偏差を $X_i-\bar{X}=(X_i-\mu)-(\bar{X}-\mu)$ と分けて2乗し、$i$ について足し上げます。

DERIVATION（恒等式）

$$ \begin{aligned} \sum_{i=1}^{n}(X_i-\bar{X})^2 &= \sum_{i=1}^{n}\big[(X_i-\mu)-(\bar{X}-\mu)\big]^2 &&\text{(} \mu \text{ を足して引く)}\\[2pt] &= \sum_{i=1}^{n}\Big[(X_i-\mu)^2 - 2(X_i-\mu)(\bar{X}-\mu) + (\bar{X}-\mu)^2\Big] &&\text{(2乗を展開)}\\[2pt] &= \sum_{i=1}^{n}(X_i-\mu)^2 - 2(\bar{X}-\mu)\sum_{i=1}^{n}(X_i-\mu) + n(\bar{X}-\mu)^2 &&\text{(} i \text{ に無関係な因子を外へ)}\\[2pt] &= \sum_{i=1}^{n}(X_i-\mu)^2 - 2(\bar{X}-\mu)\cdot n(\bar{X}-\mu) + n(\bar{X}-\mu)^2 &&\Big(\textstyle\sum (X_i-\mu)=n(\bar{X}-\mu)\Big)\\[2pt] &= \sum_{i=1}^{n}(X_i-\mu)^2 - 2n(\bar{X}-\mu)^2 + n(\bar{X}-\mu)^2 \\[2pt] &= \sum_{i=1}^{n}(X_i-\mu)^2 - n(\bar{X}-\mu)^2 &&\text{(中央2項をまとめる)} \end{aligned} $$

4行目で使った $\sum_{i=1}^{n}(X_i-\mu)=n(\bar{X}-\mu)$ は、$\sum X_i = n\bar{X}$（標本平均の定義の言い換え）から $\sum(X_i-\mu)=\sum X_i - n\mu = n\bar{X}-n\mu = n(\bar{X}-\mu)$ と出ます。こうして次の分解の恒等式が得られました。

FORMULA（偏差平方和の分解）

$$\sum_{i=1}^{n}(X_i-\bar{X})^2 = \sum_{i=1}^{n}(X_i-\mu)^2 - n(\bar{X}-\mu)^2$$ 右辺の第2項は引き算。だから「$\bar{X}$ からの平方和」は「$\mu$ からの平方和」より、つねに $n(\bar{X}-\mu)^2$ だけ小さい。これが先ほどの「縮む」を式で表したものです。

導出：期待値を取る

では、この両辺の期待値を取りましょう。使う道具は2つだけ。各 $X_i$ について $E[(X_i-\mu)^2]=V[X_i]=\sigma^2$（母分散の定義そのもの）と、標本平均について $E[(\bar{X}-\mu)^2]=V[\bar{X}]=\dfrac{\sigma^2}{n}$（2-13b で導いた $V[\bar{X}]=\sigma^2/n$）です。

DERIVATION

$$ \begin{aligned} E\!\left[\sum_{i=1}^{n}(X_i-\bar{X})^2\right] &= E\!\left[\sum_{i=1}^{n}(X_i-\mu)^2\right] - n\,E\big[(\bar{X}-\mu)^2\big] &&\text{(恒等式の両辺に期待値、線形性)}\\[2pt] &= \sum_{i=1}^{n} E\big[(X_i-\mu)^2\big] - n\,V[\bar{X}] &&\text{(各定義に読み替え)}\\[2pt] &= \sum_{i=1}^{n} \sigma^2 - n\cdot\frac{\sigma^2}{n} &&\Big(E[(X_i-\mu)^2]=\sigma^2,\ V[\bar{X}]=\tfrac{\sigma^2}{n}\Big)\\[2pt] &= n\sigma^2 - \sigma^2 \\[2pt] &= (n-1)\,\sigma^2 &&\text{(} \sigma^2 \text{ でくくる)} \end{aligned} $$

FORMULA

$$E\!\left[\sum_{i=1}^{n}(X_i-\bar{X})^2\right] = (n-1)\,\sigma^2$$ 偏差平方和の期待値は $n\sigma^2$ ではなく $(n-1)\sigma^2$。$\bar{X}$ を使ったせいで、ちょうど $\sigma^2$ ひとつ分（$\sigma^2$ から $n\cdot\frac{\sigma^2}{n}$ を引いた分）だけ目減りしています。

結論：$n-1$ で割ると不偏になる

期待値が $(n-1)\sigma^2$ なのだから、これを $n-1$ で割れば、期待値はぴったり $\sigma^2$ に戻ります。つまり「$n$ で割る」のではなく「$n-1$ で割る」のが正解。こうして定義した量が不偏分散 $s^2$ です。

FORMULA（不偏分散）

$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2, \qquad E[s^2] = \frac{1}{n-1}\cdot(n-1)\sigma^2 = \sigma^2$$ $s^2$ は母分散 $\sigma^2$ の不偏推定量です。一方、$n$ で割った $\hat{\sigma}^2=\frac{1}{n}\sum(X_i-\bar{X})^2$ は $E[\hat{\sigma}^2]=\dfrac{n-1}{n}\sigma^2$ となり、$\sigma^2$ より小さめ（過小評価）。だから推定には $n-1$ 版を使うのです。

$n-1$ の正体は「自由度」

この $n-1$ には名前があります。自由度です。$n$ 個の偏差 $X_1-\bar{X},\dots,X_n-\bar{X}$ には、$\sum_{i=1}^{n}(X_i-\bar{X})=0$ という制約が1本かかっています（偏差の和は必ず $0$）。だから自由に動ける偏差は $n$ 個ではなく $n-1$ 個。$\bar{X}$ を1つ推定に使った代償として、情報が1個分減った──この $1$ 個の目減りが、割る数を $n-1$ にする理由であり、さっきの導出で $\sigma^2$ ひとつ分が消えたことと完全に対応しています。

さえ

$n-1$ の覚え方は「$\bar{X}$ を借りた利子」！　$\mu$ が分からないから $\bar{X}$ で代用した。その $\bar{X}$ は標本にピッタリ寄り添うから、ばらつきが少し小さく見える。その目減りを取り戻すために、割る数を1個ケチって $n-1$ にするの。導出で $n\sigma^2-\sigma^2=(n-1)\sigma^2$ ってなったとこ、まさにこれだよ！

5. 数値例で確かめる

小さなデータで、$n$ 割りと $n-1$ 割りの差を実感します。

EXAMPLE 1（手計算）

ある製品5個の重さ（g）が $4,\ 8,\ 6,\ 10,\ 12$ だったとします。まず標本平均は $$\bar{x} = \frac{4+8+6+10+12}{5} = \frac{40}{5} = 8\ \text{(g)}$$

偏差平方和は $$\sum_{i=1}^{5}(x_i-\bar{x})^2 = (-4)^2+0^2+(-2)^2+2^2+4^2 = 16+0+4+4+16 = 40$$

不偏分散（$n-1=4$ で割る）：$s^2 = \dfrac{40}{4} = 10.0$
（参考）$n=5$ で割ると：$\hat{\sigma}^2 = \dfrac{40}{5} = 8.0$ ── $n-1$ 版より小さい

同じデータでも、割る数が違うだけで $10.0$ と $8.0$。母分散の推定として正しいのは、不偏な $s^2=10.0$ のほうです。

EXAMPLE 2（モンテカルロで不偏性を確認）

本当に $E[s^2]=\sigma^2$ になるのか、シミュレーションで確かめます。母平均 $\mu=50$、母分散 $\sigma^2=100$ の正規母集団から、サイズ $n=5$ の標本を200万回取り、毎回 $s^2$（$n-1$ 割り）と $\hat{\sigma}^2$（$n$ 割り）を計算してその平均を見ます。理論上、$n$ 割りの期待値は $\frac{n-1}{n}\sigma^2=\frac{4}{5}\times100=80$ のはずです。

推定量	200万回の平均	理論値	判定
$s^2$（$n-1=4$ で割る）	99.93	$\sigma^2=100$	ほぼ一致（不偏）
$\hat{\sigma}^2$（$n=5$ で割る）	79.94	$\tfrac{4}{5}\sigma^2=80$	約20%過小

$n-1$ 版はみごとに $100$ に張り付き、$n$ 版は理論どおり $80$ 付近に偏りました。「$n$ で割ると過小、$n-1$ で割ると不偏」が数値で裏付けられたわけです。導出で示した $E[\sum(X_i-\bar{X})^2]=(n-1)\sigma^2$ が、そのまま現れています。

6. 結論と使いどころ

POINT

試験では「不偏な推定量はどれか」「なぜ $n-1$ で割るのか」が頻出です。覚えるべきは2点。(1) 標本平均 $\bar{X}$ は $\mu$ の不偏推定量（$E[\bar{X}]=\mu$）。(2) 母分散の不偏推定量は $n-1$ で割る不偏分散 $s^2$ であり、$n$ で割ると過小評価になる。理由は「未知の $\mu$ の代わりに $\bar{X}$ を使った分、自由度が $1$ 減るから」。この一言が言えれば完璧です。

なお、不偏性は万能ではありません。$s^2$ は分散 $\sigma^2$ の不偏推定量ですが、その平方根 $s=\sqrt{s^2}$ は標準偏差 $\sigma$ の不偏推定量ではない（平方根は非線形なので、不偏性は引き継がれません）という細かい注意もあります。それでも実務では $s$ を $\sigma$ の推定に普通に使います。完璧な不偏より、$n$ を増やせば真値に近づく一致性のほうが頼りになる場面も多いのです。次章からは、この $s^2$ を武器に、母平均を「幅」で推定していきます。

まとめ

第3章 3-4、ポイントを整理します。

推定量と推定値：推定量 $\hat{\theta}$ は標本の関数（確率変数）、推定値はそれにデータを入れた一つの数
不偏性：$E[\hat{\theta}]=\theta$。平均的に母数に当たる（系統的な偏りがない）
一致性：$n$ を増やすと $\hat{\theta}$ が $\theta$ に近づく（大数の法則の一般化）
有効性：不偏推定量の中で分散が小さいほどよい
標本平均：$E[\bar{X}]=\mu$（不偏）。$V[\bar{X}]=\sigma^2/n$ より一致性も持つ
不偏分散（山場）：$s^2=\dfrac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$、$E[s^2]=\sigma^2$
なぜ $n-1$：$E[\sum(X_i-\bar{X})^2]=(n-1)\sigma^2$。$\bar{X}$ を使った分、自由度が $1$ 減る

次回 3-5 区間推定の論理では、一点で当てる点推定から一歩進んで、「どれくらいの幅で当たっていそうか」を示す信頼区間を、なぜ作れるのか・どう作るのかという論理から組み立てます。今日の $\bar{X}$ と、中心極限定理が、いよいよ本格的に活躍します。

さえ

$n-1$ の謎、スッキリしたね！　恒等式 $\sum(X_i-\bar{X})^2=\sum(X_i-\mu)^2-n(\bar{X}-\mu)^2$ の期待値を取ると、$n\sigma^2-\sigma^2=(n-1)\sigma^2$。だから $n-1$ で割る──この流れ、一度自分の手で書いてみてね。次は区間推定、「点」じゃなく「幅」で攻めるよ！