統計的な推測
いよいよ統計検定3級の最終章、第9章「統計的な推測」に入ります。これまで学んできた記述統計(第1〜5章)、確率(第6章)、確率変数と確率分布(第7章)、データの収集(第8章)──これらすべてが、ここで合流します。
本ページでは、「標本から母集団を推測する」という統計学のもっとも本質的な営みを整理します。母平均・母比率と標本平均・標本比率の違い、そして標本分布という重要な概念を、SVG図とともに直感的に押さえていきましょう。
本章は3級の出題範囲としては概念の紹介が中心で、計算問題はあまり出ません。むしろ2級・準1級への入り口として、「統計学はこうやって現実の世界を扱う」という大きな絵を描く章です。クールダウンの気持ちで、ゆったり読み進めてください。
第9章スタート! 最後の章だよ! ここまで来たあなたなら、新しい用語が出てきても怖くない! 統計学の本丸である「標本から母集団を推測する」世界へようこそ!
1. 統計的推測とは何か
統計的推測(とうけいてきすいそく、statistical inference)とは、文字通り「標本から母集団を推測する」分析のことです。第8章で学んだとおり、現代では母集団全部を調べる全数調査は難しい。だから一部の標本を取り、そこから全体を推測するのが一般的です。
標本から「何を」推測するのか
推測したい対象は、母集団の「特性値」です。代表的なものに:
- 母平均 μ:母集団全体の平均(例:日本人男性の平均身長)
- 母比率 p:母集団における特定の比率(例:内閣支持率、不良品率)
- 母分散 σ²:母集団のばらつき
これらは母集団に存在する「真の値」ですが、全数調査が難しい以上、直接知ることはできません。だからこそ標本から推測するわけです。
2つのアプローチ:推定と仮説検定
統計的推測には、大きく2つのアプローチがあります。本章で順に学んでいく内容です。
| アプローチ | やること | 例 |
|---|---|---|
| 統計的推定 | 母集団の特性値を「数値で」推測する | 「内閣支持率は40%前後と推定」 |
| 統計的仮説検定 | 立てた仮説が正しいか「判定する」 | 「新薬の効果は本物? それとも偶然?」 |
推定が「値を当てに行く」なら、仮説検定は「仮説の真偽を判断する」。同じ「推測」でも目的が違います。9-2では推定、9-3では仮説検定を扱います。
2. 母集団パラメータと標本統計量
ここで、推測の場面で繰り返し登場する用語を整理しておきましょう。母集団の値と標本の値は、はっきり区別する必要があります。
母集団パラメータ
母集団の特性値を母集団パラメータ(または単に「母数」)と呼びます。記号にはギリシャ文字を使うのが慣例です。
- 母平均 μ(ミュー):母集団の平均
- 母比率 p:母集団の比率
- 母分散 σ²(シグマ二乗):母集団の分散
- 母標準偏差 σ:母集団の標準偏差
これらは固定された真の値ですが、私たちは普通、その値を直接知りません。
標本統計量
一方、標本から計算した値を標本統計量と呼びます。こちらにはアルファベットや、ギリシャ文字に「ハット」(^)を付けた記号を使います。
- 標本平均 x̄(エックス・バー):標本から計算した平均
- 標本比率 p̂(ピー・ハット):標本から計算した比率
- 標本分散 s²:標本から計算した分散
- 標本標準偏差 s:標本から計算した標準偏差
記号で区別する重要性
母集団パラメータと標本統計量は、必ず記号で区別します。「母平均は μ、標本平均は x̄」「母比率は p、標本比率は p̂」──同じ「平均」「比率」でも、母集団の値か標本の値かで、意味が全然違うからです。
標本統計量を「推定値」として使う
ここからが本題です。母集団の真の値(μ や p)はわからないので、標本統計量を「推定値」として使います。
- μ の代わりに、x̄ を使う
- p の代わりに、p̂ を使う
ただし、これは「標本平均」が「母平均」と完全に等しいという意味ではありません。標本ごとに値は変わりますし、誤差もあります。「真の値の代わりに使える、もっとも自然な見積もり」と理解してください。
3. 標本平均は「確率変数」
ここから、本章でもっとも大切な発想が登場します。
標本ごとに値は変わる
母集団から標本を取って、その標本平均 x̄ を計算する。この作業を何度も繰り返すと、毎回違う標本平均が出ます。
たとえば、日本人男性100人を無作為に選んで身長の平均を計算する。今日選んだ100人と、明日選んだ100人では、平均がぴったり同じになることはまずありません。標本平均は、標本のとり方によって値がバラバラに変わるのです。
標本平均は確率変数
標本のとり方によって値が変わる──ということは、第7章で学んだ確率変数そのものですね。
標本平均 x̄ は、確率変数です。標本のとり方によって値が確率的に変動するからです。
「えっ、計算した平均が確率変数?」と最初は不思議に感じるかもしれません。でも、標本のとり方が無作為だからこそ、結果としての標本平均も、確率的に変動する確率変数になるのです。
標本ごとに違う値が出るイメージ
同じ母集団から取った標本でも、x̄の値は標本ごとに異なる。これが「x̄は確率変数」の意味
4. 標本分布 ─ 標本統計量の確率分布
標本平均が確率変数なら、当然その確率分布を考えたくなります。これが標本分布です。
標本分布の定義
標本分布(sampling distribution)とは、標本統計量(標本平均や標本比率など)の確率分布のこと。
標本平均なら「標本平均の標本分布」、標本比率なら「標本比率の標本分布」と呼びます。「標本分布」というキーワードが持つ意味は、「標本ごとに変わる統計量を、確率変数として捉えた、その分布」です。
なぜ標本分布が大切なのか
標本分布がなぜ重要なのか? それは、母集団の真の値からどれくらいズレる可能性があるかを、確率で捉えられるからです。
たとえば「100人の標本から推定した平均身長 x̄ = 170.5cm」だけでは、母平均 μ がどれくらいズレているかわかりません。でも、標本分布のばらつきの幅がわかれば、「真の値はだいたい169〜172cmの範囲にあるだろう」のような、誤差を含んだ推定ができるようになります。
これが次回9-2で扱う区間推定の基礎であり、9-3で扱う仮説検定の基礎でもあります。
次のお話は数式が出てくるけれども、難しい数式は読み飛ばして構わないです。イメージができればOK!
5. 標本平均の標本分布
では、具体的に「標本平均の標本分布」の性質を見ていきましょう。
標本平均の期待値と標準偏差
母集団から大きさ n の無作為標本を取り、その標本平均 x̄ を考えます。母集団が母平均 μ、母分散 σ² のとき、x̄ の確率分布には次の性質があります。
標本平均 x̄ の期待値:E(x̄) = μ
標本平均 x̄ の分散:V(x̄) = σ² / n
標本平均 x̄ の標準偏差:σ / √n
性質1:標本平均の期待値は母平均と一致
E(x̄) = μ ということは、「標本平均を何度も計算して平均を取れば、母平均と一致する」ということ。標本平均は、母平均の偏りなき推定値です。これが標本平均を推定値として使う理論的根拠になります。
性質2:標本サイズを大きくするとばらつきは小さくなる
V(x̄) = σ² / n という式の n に注目してください。標本サイズ n が大きいほど、分散は小さくなるのです。標準偏差で見ても σ / √n なので、n が4倍になると標準偏差は半分。
これは直感にも合いますね。たくさんの人の身長から平均を取れば、その値は安定する。100人の平均と1万人の平均を比べれば、後者のほうが「真の母平均」に近い、と感じるはずです。それを数式で表現したのが σ / √n という形なんです。
中心極限定理(参考)
ここで、3級レベルを少し超える内容ですが、知っておくと深い理解につながる定理を紹介します。
中心極限定理(ちゅうしんきょくげんていり、Central Limit Theorem):母集団がどんな分布をしていても、標本サイズ n が十分大きいとき、標本平均 x̄ は正規分布に従う(近似的に)。
具体的には、x̄ は N(μ, σ²/n) という正規分布で近似できます。母集団自体がどんな歪な分布でも、標本平均をたくさん集めると正規分布の形になる──7-3で「世の中のあらゆる場面に正規分布が現れる」と書きましたが、その理由のひとつがこの定理にあります。
6. 標本比率の標本分布
もうひとつ、よく扱われるのが標本比率の標本分布です。
標本比率とは
標本の中で、ある条件を満たす要素の割合が標本比率 p̂。たとえば「標本100人のうち、内閣を支持すると答えた人が42人なら、p̂ = 42/100 = 0.42」となります。
標本平均と同じく、標本比率も標本のとり方で値が変わるので、確率変数です。だから、標本比率にも標本分布があります。
標本比率の期待値と標準偏差
母集団の母比率を p、標本サイズを n とすると、標本比率 p̂ の標本分布には次の性質があります。
標本比率 p̂ の期待値:E(p̂) = p
標本比率 p̂ の分散:V(p̂) = p(1−p) / n
標本比率 p̂ の標準偏差:√(p(1−p)/n)
これも標本平均と同じ構造です。期待値は母比率と一致し、サイズを大きくするとばらつきが小さくなります。n が大きいときは正規分布で近似できる(中心極限定理)、というのも同じ。
世論調査での標本サイズ
ニュースで「全国2,000人を対象に世論調査を実施しました」と聞いたことがあるかと思います。なぜ2,000人なのでしょうか?
これは標本比率の標本分布の性質と関係があります。p ≒ 0.5、n = 2000 とすると、標準偏差は √(0.5 × 0.5 / 2000) ≒ 0.0112。つまり±1.1%程度の誤差で母比率を推定できる、というわけです。日本国民1億人を相手にしても、2000人の標本で十分実用的な精度が得られる──統計学の力を実感しますね。
まとめ
第9章のスタートとなる本ページ、ポイントを整理しておきましょう。
- 統計的推測:標本から母集団を推測する営み。推定と仮説検定の2つのアプローチ
- 母集団パラメータ vs 標本統計量:母平均 μ ⇔ 標本平均 x̄、母比率 p ⇔ 標本比率 p̂ を必ず区別
- 標本平均は確率変数:標本のとり方で値が変わる
- 標本分布:標本統計量の確率分布
- 標本平均の標本分布:E(x̄) = μ、V(x̄) = σ² / n、σ(x̄) = σ / √n
- 標本比率の標本分布:E(p̂) = p、V(p̂) = p(1-p) / n
- 中心極限定理:n が大きいとき、x̄ や p̂ は正規分布で近似できる
次回は区間推定。「だいたいこの範囲に真の値がある」と誤差を含めた推定を行う方法を学びます。標本分布の性質が、ここで活躍します。
標本平均が確率変数で、その分布が標本分布──最初は不思議に感じても、ここがピンと来れば9-2と9-3はぐっと楽になるよ! 次は区間推定!