母平均の区間推定(分散未知・t分布)— なぜ t を使うのか
前回(3-6)は母分散 $\sigma^2$ が分かっている設定でした。でも実務では、母平均が分からないのに母分散だけ分かっている、なんてことはまずありません。本ページでは、より現実的な「母分散も未知」の場合の母平均 $\mu$ の信頼区間を扱います。
鍵は、未知の $\sigma$ を標本から計算した不偏分散 $s^2$ で代用すること。すると統計量は標準正規ではなく、自由度 $n-1$ の $t$ 分布に従います。「なぜ正規じゃなくて $t$ なの?」──この一番大事な疑問に直感から答え、信頼区間 $\bar{X}\pm t_{\alpha/2,\,n-1}\dfrac{s}{\sqrt{n}}$ を数値例で計算します。
今回はぐっとリアルな設定だよ。母分散 $\sigma^2$ なんて普通わからないよね。だから手元のデータから推定した $s^2$ で代わりをさせる。でもね、その「代わり」自体がばらつくから、正規分布より裾が重い $t$ 分布を使うことになるの。この「なぜ $t$?」が今日いちばんの山場。図でしっかりイメージしよう!
1. 問題:母分散が分からない(直感)
前回の信頼区間 $\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ をよく見ると、計算に母標準偏差 $\sigma$ が必要でした。ところが現実のデータ分析では、母平均 $\mu$ が未知なのと同じくらい、母分散 $\sigma^2$ も未知なのが普通です。さて、どうしましょう。
素直な発想は、「分からない $\sigma$ を、手元のデータから推定した値で置き換える」こと。そこで登場するのが、3級でも習った不偏分散です。第3章の点推定(3-4)で見たように、$n-1$ で割る不偏分散 $s^2$ は母分散 $\sigma^2$ の不偏推定量でした。
不偏分散(母分散 $\sigma^2$ の不偏推定量) $$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}\left(X_i - \bar{X}\right)^2$$ その平方根 $s$ を標本標準偏差として、$\sigma$ の代わりに使います。$n-1$ で割るのは、$\bar{X}$ を使った分だけ自由度が1つ減るためでした。
2. なぜ正規ではなく $t$ 分布なのか
$\sigma$ を $s$ に置き換えた統計量を作ってみます。
$$t = \frac{\bar{X}-\mu}{s/\sqrt{n}}$$ 前回の $Z=\dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ と見比べると、分母の $\sigma$ が $s$ に変わっただけです。たったこれだけの違いが、分布を変えます。
ここがポイントです。$Z$ のときは、分母の $\sigma$ は固定された定数でした。だから $Z$ のばらつきは分子の $\bar{X}$ だけから来て、きれいな標準正規になりました。ところが $t$ では、分母の $s$ もまた標本ごとに変わる確率変数です。分子も分母も「ゆらぐ」ので、$Z$ より全体のばらつきが大きくなります。
$s$ は $\sigma$ の推定値にすぎず、標本によって大きめに出たり小さめに出たりします。とくに $n$ が小さいと、たまたま $s$ が小さく出る → 分母が小さい → $t$ が大きく振れる、ということが起こりやすい。この「推定したばらつき自体の不確かさ」が上乗せされる分、$t$ の分布は標準正規より外側(裾)に確率が多く残る──つまり裾が重いのです。
この統計量がきっちり従う分布が、自由度 $n-1$ の $t$ 分布です。実は 2-12 標本分布 で見た $t=\dfrac{Z}{\sqrt{\chi^2/k}}$ という形がそのまま当てはまります。分子の $\bar{X}-\mu$ が標準正規由来、分母の $s$ が $\chi^2$ 分布由来で、両者を組み合わせると $t$ 分布になる、という仕組みです。
正規母集団 $N(\mu,\sigma^2)$ からの標本について、 $$t = \frac{\bar{X}-\mu}{s/\sqrt{n}} \sim t_{n-1}\quad(\text{自由度 } n-1 \text{ の } t \text{ 分布})$$ 自由度が $n-1$ なのは、$s^2$ の計算で $\bar{X}$ を使い、自由度を1つ消費したためです。
t分布(破線)は正規分布(実線)より中央がやや低く、両側の裾がふくらむ。だから同じ信頼係数でも t の確率点は z より外側になる
裾が重いということは、同じ信頼係数 $1-\alpha$ をはさむのに、$t$ の確率点 $t_{\alpha/2,\,n-1}$ は正規の $z_{\alpha/2}$ より外側(大きい値)になるということ。たとえば $95\%$ では $z_{0.025}=1.96$ ですが、自由度 $9$ なら $t_{0.025,9}=2.262$。だから $t$ で作る区間は、$z$ で作る区間より少し広くなります。これは「$\sigma$ を推定で代用した分の不確かさ」を正直に区間幅へ反映した結果です。
なお 2-12 でも触れたとおり、自由度(=おおむね標本サイズ)が大きくなると、$t$ 分布は標準正規分布に近づきます。$n$ が大きければ $s$ が $\sigma$ にほぼ等しくなり、「推定の不確かさ」が消えていくからです。目安として $n$ が $30$ を超えると、$t$ と $z$ の値はほとんど変わりません。
3. 信頼区間の導出
作り方の型は前回とまったく同じです。標準正規 $Z$ を $t$ に、確率点 $z_{\alpha/2}$ を $t_{\alpha/2,\,n-1}$ に置き換えるだけ。$t$ 分布も $0$ を中心に左右対称なので、中央 $1-\alpha$ を $\pm t_{\alpha/2,\,n-1}$ ではさめます。
$$ \begin{aligned} P\!\left(-t_{\alpha/2,\,n-1} \le \frac{\bar{X}-\mu}{s/\sqrt{n}} \le t_{\alpha/2,\,n-1}\right) &= 1-\alpha &&\text{(} t \text{ を中央ではさむ)}\\[4pt] P\!\left(-t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}} \le \bar{X}-\mu \le t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}}\right) &= 1-\alpha &&\text{(各辺に } \tfrac{s}{\sqrt{n}} \text{ を掛ける)}\\[4pt] P\!\left(\bar{X}-t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}} \le \mu \le \bar{X}+t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}}\right) &= 1-\alpha &&\text{(} \mu \text{ について解く)} \end{aligned} $$
母平均 $\mu$ の信頼係数 $1-\alpha$ の信頼区間(母分散未知) $$\bar{X}\pm t_{\alpha/2,\,n-1}\,\frac{s}{\sqrt{n}}$$ 前回の $z$ 版 $\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$ と、変わったのは2か所だけ。$\sigma\to s$(既知の母標準偏差を不偏分散の平方根に)、$z_{\alpha/2}\to t_{\alpha/2,\,n-1}$(正規の点を自由度 $n-1$ の $t$ の点に)です。
覚え方はカンタン。前回の $z$ 版から「$\sigma$ を $s$ に」「$z$ を $t$ に」差し替えるだけ! 違いは2文字。でも意味は深くて、「ばらつきを推定で代用したから、その不確かさの分だけ $t$ で広めに取る」ってこと。試験では母分散が既知か未知かを最初に見抜くのが勝負だよ。既知なら $z$、未知なら $t$、ね!
4. 数値例で計算してみる
実際に手を動かします。$t$ の確率点は問題に添付される $t$ 分布表から、自由度と $\alpha/2$ を手がかりに読み取ります。
ある銘柄のコーヒー豆 $10$ 袋を無作為に選び、内容量を測ったところ、標本平均 $\bar{x}=24.3\,\text{g}$、不偏分散の平方根(標本標準偏差)$s=3.5\,\text{g}$ でした。中身は正規分布に従うとして、母平均 $\mu$ の $95\%$ 信頼区間を求めます。
自由度は $n-1 = 10-1 = 9$。$95\%$ なので $\alpha/2=0.025$、$t$ 分布表から $t_{0.025,\,9}=2.262$。標準誤差は $\dfrac{s}{\sqrt{n}}=\dfrac{3.5}{\sqrt{10}}\approx 1.107\,\text{g}$。よって、
$$24.3 \pm 2.262 \times 1.107 = 24.3 \pm 2.504$$
信頼区間は $\mathbf{21.80 \le \mu \le 26.80}$(単位 $\text{g}$、小数第2位まで)。
いまのデータで、誤って母分散既知のつもりで $z_{0.025}=1.96$ を使うと、半幅は $1.96\times 1.107 \approx 2.169$。区間は $24.3\pm 2.17$、つまり $\mathbf{22.13 \le \mu \le 26.47}$ となります。
正しい $t$ 版(半幅 $2.504$)より狭くなっています。これは「実際にはあるはずの不確かさ」を見落とし、区間を狭く見積もりすぎた状態です。$n$ が小さいほどこのズレは大きく、危険。だから母分散が未知なら必ず $t$ を使う、と覚えてください。
5. 結論と使いどころ
母分散未知の母平均の区間推定は、実務でいちばんよく使う基本中の基本です。判断のポイントはシンプルで、「母分散 $\sigma^2$ が与えられているか、いないか」。これで $z$ か $t$ かが決まります。
母平均の区間推定の使い分け──
- 母分散 $\sigma^2$ が既知 → $\bar{X}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$(標準正規)
- 母分散 $\sigma^2$ が未知 → $\bar{X}\pm t_{\alpha/2,\,n-1}\dfrac{s}{\sqrt{n}}$(自由度 $n-1$ の $t$)
- $n$ が大きい(おおむね $30$ 以上) → $t$ と $z$ はほぼ一致。$t$ を使えば常に安全
厳密には「母集団が正規分布」という前提のもとで $t$ が成り立ちますが、$n$ が大きければ中心極限定理の後押しで、多少正規からずれていても近似的に使えます。
まとめ
第3章 3-7、ポイントを整理します。
- 動機:母分散 $\sigma^2$ は普通わからない → 不偏分散 $s^2=\dfrac{1}{n-1}\sum(X_i-\bar{X})^2$ で代用
- 統計量:$t=\dfrac{\bar{X}-\mu}{s/\sqrt{n}}$ は自由度 $n-1$ の $t$ 分布に従う
- なぜ $t$:分母の $s$ も確率変数でゆらぐ → 不確かさが上乗せ → 正規より裾が重い
- 信頼区間:$\bar{X}\pm t_{\alpha/2,\,n-1}\dfrac{s}{\sqrt{n}}$。$z$ 版から「$\sigma\to s$、$z\to t$」の置き換え
- 使い分け:分散既知なら $z$、未知なら $t$。$n$ 大では両者ほぼ一致
次回 3-8 母分散・母比率の区間推定 では、推定の相手を平均から「ばらつき(母分散)」と「割合(母比率)」へ広げます。母分散には左右で確率点が入れ替わる $\chi^2$ 分布が、母比率には大標本の正規近似が登場します。
「なぜ $t$?」、腑に落ちたかな? $s$ も確率変数だから、その分だけ余裕を見て裾の重い $t$ を使う──ここが本質だよ。次は推定の相手が「ばらつき」と「割合」になるよ。$\chi^2$ と母比率の正規近似、どっちも実務で大活躍する技だから楽しみにしててね!