第3章 3-7 / 統計的推定

母平均の区間推定（分散未知・t分布）— なぜ t を使うのか

このページで学ぶこと

前回（3-6）は母分散 $\sigma^2$ が分かっている設定でした。でも実務では、母平均が分からないのに母分散だけ分かっている、なんてことはまずありません。本ページでは、より現実的な「母分散も未知」の場合の母平均 $\mu$ の信頼区間を扱います。

鍵は、未知の $\sigma$ を標本から計算した不偏分散 $s^2$ で代用すること。すると統計量は標準正規ではなく、自由度 $n-1$ の $t$ 分布に従います。「なぜ正規じゃなくて $t$ なの?」──この一番大事な疑問に直感から答え、信頼区間 $\bar{X}\pm t_{\alpha/2,\,n-1}\dfrac{s}{\sqrt{n}}$ を数値例で計算します。

さえ

今回はぐっとリアルな設定だよ。母分散 $\sigma^2$ なんて普通わからないよね。だから手元のデータから推定した $s^2$ で代わりをさせる。でもね、その「代わり」自体がばらつくから、正規分布より裾が重い $t$ 分布を使うことになるの。この「なぜ $t$?」が今日いちばんの山場。図でしっかりイメージしよう！

1. 問題：母分散が分からない（直感）

前回の信頼区間 $\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ をよく見ると、計算に母標準偏差 $\sigma$ が必要でした。ところが現実のデータ分析では、母平均 $\mu$ が未知なのと同じくらい、母分散 $\sigma^2$ も未知なのが普通です。さて、どうしましょう。

素直な発想は、「分からない $\sigma$ を、手元のデータから推定した値で置き換える」こと。そこで登場するのが、3級でも習った不偏分散です。第3章の点推定（3-4）で見たように、$n-1$ で割る不偏分散 $s^2$ は母分散 $\sigma^2$ の不偏推定量でした。

FORMULA

不偏分散（母分散 $\sigma^2$ の不偏推定量） $$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}\left(X_i - \bar{X}\right)^2$$ その平方根 $s$ を標本標準偏差として、$\sigma$ の代わりに使います。$n-1$ で割るのは、$\bar{X}$ を使った分だけ自由度が1つ減るためでした。

2. なぜ正規ではなく $t$ 分布なのか

$\sigma$ を $s$ に置き換えた統計量を作ってみます。

FORMULA

$$t = \frac{\bar{X}-\mu}{s/\sqrt{n}}$$ 前回の $Z=\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ と見比べると、分母の $\sigma$ が $s$ に変わっただけです。たったこれだけの違いが、分布を変えます。

ここがポイントです。$Z$ のときは、分母の $\sigma$ は固定された定数でした。だから $Z$ のばらつきは分子の $\bar{X}$ だけから来て、きれいな標準正規になりました。ところが $t$ では、分母の $s$ もまた標本ごとに変わる確率変数です。分子も分母も「ゆらぐ」ので、$Z$ より全体のばらつきが大きくなります。

POINT

$s$ は $\sigma$ の推定値にすぎず、標本によって大きめに出たり小さめに出たりします。とくに $n$ が小さいと、たまたま $s$ が小さく出る → 分母が小さい → $t$ が大きく振れる、ということが起こりやすい。この「推定したばらつき自体の不確かさ」が上乗せされる分、$t$ の分布は標準正規より外側（裾）に確率が多く残る──つまり裾が重いのです。

この統計量がきっちり従う分布が、自由度 $n-1$ の $t$ 分布です。実は 2-12 標本分布で見た $t=\dfrac{Z}{\sqrt{\chi^2/k}}$ という形がそのまま当てはまります。分子の $\bar{X}-\mu$ が標準正規由来、分母の $s$ が $\chi^2$ 分布由来で、両者を組み合わせると $t$ 分布になる、という仕組みです。

FORMULA

正規母集団 $N(\mu,\sigma^2)$ からの標本について、 $$t = \frac{\bar{X}-\mu}{s/\sqrt{n}} \sim t_{n-1}\quad(\text{自由度 } n-1 \text{ の } t \text{ 分布})$$ 自由度が $n-1$ なのは、$s^2$ の計算で $\bar{X}$ を使い、自由度を1つ消費したためです。

t分布（破線）は正規分布（実線）より中央がやや低く、両側の裾がふくらむ。だから同じ信頼係数でも t の確率点は z より外側になる

POINT

裾が重いということは、同じ信頼係数 $1-\alpha$ をはさむのに、$t$ の確率点 $t_{\alpha/2,\,n-1}$ は正規の $z_{\alpha/2}$ より外側（大きい値）になるということ。たとえば $95\%$ では $z_{0.025}=1.96$ ですが、自由度 $9$ なら $t_{0.025,9}=2.262$。だから $t$ で作る区間は、$z$ で作る区間より少し広くなります。これは「$\sigma$ を推定で代用した分の不確かさ」を正直に区間幅へ反映した結果です。

なお 2-12 でも触れたとおり、自由度（＝おおむね標本サイズ）が大きくなると、$t$ 分布は標準正規分布に近づきます。$n$ が大きければ $s$ が $\sigma$ にほぼ等しくなり、「推定の不確かさ」が消えていくからです。目安として $n$ が $30$ を超えると、$t$ と $z$ の値はほとんど変わりません。

3. 信頼区間の導出

作り方の型は前回とまったく同じです。標準正規 $Z$ を $t$ に、確率点 $z_{\alpha/2}$ を $t_{\alpha/2,\,n-1}$ に置き換えるだけ。$t$ 分布も $0$ を中心に左右対称なので、中央 $1-\alpha$ を $\pm t_{\alpha/2,\,n-1}$ ではさめます。

DERIVATION

$$ \begin{aligned} P\!\left(-t_{\alpha/2,\,n-1} \le \frac{\bar{X}-\mu}{s/\sqrt{n}} \le t_{\alpha/2,\,n-1}\right) &= 1-\alpha &&\text{(} t \text{ を中央ではさむ)}\\[4pt] P\!\left(-t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}} \le \bar{X}-\mu \le t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}}\right) &= 1-\alpha &&\text{(各辺に } \tfrac{s}{\sqrt{n}} \text{ を掛ける)}\\[4pt] P\!\left(\bar{X}-t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}} \le \mu \le \bar{X}+t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}}\right) &= 1-\alpha &&\text{(} \mu \text{ について解く)} \end{aligned} $$

FORMULA

母平均 $\mu$ の信頼係数 $1-\alpha$ の信頼区間（母分散未知） $$\bar{X}\pm t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}}$$ 前回の $z$ 版 $\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ と、変わったのは2か所だけ。$\sigma\to s$（既知の母標準偏差を不偏分散の平方根に）、$z_{\alpha/2}\to t_{\alpha/2,\,n-1}$（正規の点を自由度 $n-1$ の $t$ の点に）です。

さえ

覚え方はカンタン。前回の $z$ 版から「$\sigma$ を $s$ に」「$z$ を $t$ に」差し替えるだけ！　違いは2文字。でも意味は深くて、「ばらつきを推定で代用したから、その不確かさの分だけ $t$ で広めに取る」ってこと。試験では母分散が既知か未知かを最初に見抜くのが勝負だよ。既知なら $z$、未知なら $t$、ね！

4. 数値例で計算してみる

実際に手を動かします。$t$ の確率点は問題に添付される $t$ 分布表から、自由度と $\alpha/2$ を手がかりに読み取ります。

EXAMPLE 1（95%信頼区間）

ある銘柄のコーヒー豆 $10$ 袋を無作為に選び、内容量を測ったところ、標本平均 $\bar{x}=24.3\,\text{g}$、不偏分散の平方根（標本標準偏差）$s=3.5\,\text{g}$ でした。中身は正規分布に従うとして、母平均 $\mu$ の $95\%$ 信頼区間を求めます。

自由度は $n-1 = 10-1 = 9$。$95\%$ なので $\alpha/2=0.025$、$t$ 分布表から $t_{0.025,\,9}=2.262$。標準誤差は $\dfrac{s}{\sqrt{n}}=\dfrac{3.5}{\sqrt{10}}\approx 1.107\,\text{g}$。よって、

$$24.3 \pm 2.262 \times 1.107 = 24.3 \pm 2.504$$

信頼区間は $\mathbf{21.80 \le \mu \le 26.80}$（単位 $\text{g}$、小数第2位まで）。

EXAMPLE 2（もし正規（z）で作っていたら）

いまのデータで、誤って母分散既知のつもりで $z_{0.025}=1.96$ を使うと、半幅は $1.96\times 1.107 \approx 2.169$。区間は $24.3\pm 2.17$、つまり $\mathbf{22.13 \le \mu \le 26.47}$ となります。

正しい $t$ 版（半幅 $2.504$）より狭くなっています。これは「実際にはあるはずの不確かさ」を見落とし、区間を狭く見積もりすぎた状態です。$n$ が小さいほどこのズレは大きく、危険。だから母分散が未知なら必ず $t$ を使う、と覚えてください。

5. 結論と使いどころ

母分散未知の母平均の区間推定は、実務でいちばんよく使う基本中の基本です。判断のポイントはシンプルで、「母分散 $\sigma^2$ が与えられているか、いないか」。これで $z$ か $t$ かが決まります。

POINT

母平均の区間推定の使い分け──

母分散 $\sigma^2$ が既知 → $\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$（標準正規）
母分散 $\sigma^2$ が未知 → $\bar{X}\pm t_{\alpha/2,\,n-1}\dfrac{s}{\sqrt{n}}$（自由度 $n-1$ の $t$）
$n$ が大きい（おおむね $30$ 以上） → $t$ と $z$ はほぼ一致。$t$ を使えば常に安全

厳密には「母集団が正規分布」という前提のもとで $t$ が成り立ちますが、$n$ が大きければ中心極限定理の後押しで、多少正規からずれていても近似的に使えます。

まとめ

第3章 3-7、ポイントを整理します。

動機：母分散 $\sigma^2$ は普通わからない → 不偏分散 $s^2=\dfrac{1}{n-1}\sum(X_i-\bar{X})^2$ で代用
統計量：$t=\dfrac{\bar{X}-\mu}{s/\sqrt{n}}$ は自由度 $n-1$ の $t$ 分布に従う
なぜ $t$：分母の $s$ も確率変数でゆらぐ → 不確かさが上乗せ → 正規より裾が重い
信頼区間：$\bar{X}\pm t_{\alpha/2,\,n-1}\dfrac{s}{\sqrt{n}}$。$z$ 版から「$\sigma\to s$、$z\to t$」の置き換え
使い分け：分散既知なら $z$、未知なら $t$。$n$ 大では両者ほぼ一致

次回 3-8 母分散・母比率の区間推定では、推定の相手を平均から「ばらつき（母分散）」と「割合（母比率）」へ広げます。母分散には左右で確率点が入れ替わる $\chi^2$ 分布が、母比率には大標本の正規近似が登場します。

さえ

「なぜ $t$?」、腑に落ちたかな？　$s$ も確率変数だから、その分だけ余裕を見て裾の重い $t$ を使う──ここが本質だよ。次は推定の相手が「ばらつき」と「割合」になるよ。$\chi^2$ と母比率の正規近似、どっちも実務で大活躍する技だから楽しみにしててね！