第9章 9-1 / 統計的な推測

統計的な推測

このページで学ぶこと

いよいよ統計検定3級の最終章、第9章「統計的な推測」に入ります。これまで学んできた記述統計（第1〜5章）、確率（第6章）、確率変数と確率分布（第7章）、データの収集（第8章）──これらすべてが、ここで合流します。

本ページでは、「標本から母集団を推測する」という統計学のもっとも本質的な営みを整理します。母平均・母比率と標本平均・標本比率の違い、そして標本分布という重要な概念を、SVG図とともに直感的に押さえていきましょう。

本章は3級の出題範囲としては概念の紹介が中心で、計算問題はあまり出ません。むしろ2級・準1級への入り口として、「統計学はこうやって現実の世界を扱う」という大きな絵を描く章です。クールダウンの気持ちで、ゆったり読み進めてください。

さえ

第9章スタート！　最後の章だよ！　ここまで来たあなたなら、新しい用語が出てきても怖くない！　統計学の本丸である「標本から母集団を推測する」世界へようこそ！

1. 統計的推測とは何か

統計的推測（とうけいてきすいそく、statistical inference）とは、文字通り「標本から母集団を推測する」分析のことです。第8章で学んだとおり、現代では母集団全部を調べる全数調査は難しい。だから一部の標本を取り、そこから全体を推測するのが一般的です。

標本から「何を」推測するのか

推測したい対象は、母集団の「特性値」です。代表的なものに：

母平均 μ：母集団全体の平均（例：日本人男性の平均身長）
母比率 p：母集団における特定の比率（例：内閣支持率、不良品率）
母分散 σ²：母集団のばらつき

これらは母集団に存在する「真の値」ですが、全数調査が難しい以上、直接知ることはできません。だからこそ標本から推測するわけです。

2つのアプローチ：推定と仮説検定

統計的推測には、大きく2つのアプローチがあります。本章で順に学んでいく内容です。

アプローチ	やること	例
統計的推定	母集団の特性値を「数値で」推測する	「内閣支持率は40%前後と推定」
統計的仮説検定	立てた仮説が正しいか「判定する」	「新薬の効果は本物？それとも偶然？」

推定が「値を当てに行く」なら、仮説検定は「仮説の真偽を判断する」。同じ「推測」でも目的が違います。9-2では推定、9-3では仮説検定を扱います。

2. 母集団パラメータと標本統計量

ここで、推測の場面で繰り返し登場する用語を整理しておきましょう。母集団の値と標本の値は、はっきり区別する必要があります。

母集団パラメータ

母集団の特性値を母集団パラメータ(または単に「母数」)と呼びます。記号にはギリシャ文字を使うのが慣例です。

母平均 μ（ミュー）：母集団の平均
母比率 p：母集団の比率
母分散 σ²（シグマ二乗）：母集団の分散
母標準偏差 σ：母集団の標準偏差

これらは固定された真の値ですが、私たちは普通、その値を直接知りません。

標本統計量

一方、標本から計算した値を標本統計量と呼びます。こちらにはアルファベットや、ギリシャ文字に「ハット」(^)を付けた記号を使います。

標本平均 x̄(エックス・バー)：標本から計算した平均
標本比率 p̂(ピー・ハット)：標本から計算した比率
標本分散 s²：標本から計算した分散
標本標準偏差 s：標本から計算した標準偏差

記号で区別する重要性

POINT

母集団パラメータと標本統計量は、必ず記号で区別します。「母平均は μ、標本平均は x̄」「母比率は p、標本比率は p̂」──同じ「平均」「比率」でも、母集団の値か標本の値かで、意味が全然違うからです。

標本統計量を「推定値」として使う

ここからが本題です。母集団の真の値（μ や p）はわからないので、標本統計量を「推定値」として使います。

μ の代わりに、x̄ を使う
p の代わりに、p̂ を使う

ただし、これは「標本平均」が「母平均」と完全に等しいという意味ではありません。標本ごとに値は変わりますし、誤差もあります。「真の値の代わりに使える、もっとも自然な見積もり」と理解してください。

3. 標本平均は「確率変数」

ここから、本章でもっとも大切な発想が登場します。

標本ごとに値は変わる

母集団から標本を取って、その標本平均 x̄ を計算する。この作業を何度も繰り返すと、毎回違う標本平均が出ます。

たとえば、日本人男性100人を無作為に選んで身長の平均を計算する。今日選んだ100人と、明日選んだ100人では、平均がぴったり同じになることはまずありません。標本平均は、標本のとり方によって値がバラバラに変わるのです。

標本平均は確率変数

標本のとり方によって値が変わる──ということは、第7章で学んだ確率変数そのものですね。

POINT

標本平均 x̄ は、確率変数です。標本のとり方によって値が確率的に変動するからです。

「えっ、計算した平均が確率変数？」と最初は不思議に感じるかもしれません。でも、標本のとり方が無作為だからこそ、結果としての標本平均も、確率的に変動する確率変数になるのです。

標本ごとに違う値が出るイメージ

同じ母集団から取った標本でも、x̄の値は標本ごとに異なる。これが「x̄は確率変数」の意味

4. 標本分布 ─ 標本統計量の確率分布

標本平均が確率変数なら、当然その確率分布を考えたくなります。これが標本分布です。

標本分布の定義

POINT

標本分布(sampling distribution)とは、標本統計量(標本平均や標本比率など)の確率分布のこと。

標本平均なら「標本平均の標本分布」、標本比率なら「標本比率の標本分布」と呼びます。「標本分布」というキーワードが持つ意味は、「標本ごとに変わる統計量を、確率変数として捉えた、その分布」です。

なぜ標本分布が大切なのか

標本分布がなぜ重要なのか？それは、母集団の真の値からどれくらいズレる可能性があるかを、確率で捉えられるからです。

たとえば「100人の標本から推定した平均身長 x̄ = 170.5cm」だけでは、母平均 μ がどれくらいズレているかわかりません。でも、標本分布のばらつきの幅がわかれば、「真の値はだいたい169〜172cmの範囲にあるだろう」のような、誤差を含んだ推定ができるようになります。

これが次回9-2で扱う区間推定の基礎であり、9-3で扱う仮説検定の基礎でもあります。

さえ

次のお話は数式が出てくるけれども、難しい数式は読み飛ばして構わないです。イメージができればOK！

5. 標本平均の標本分布

では、具体的に「標本平均の標本分布」の性質を見ていきましょう。

標本平均の期待値と標準偏差

母集団から大きさ n の無作為標本を取り、その標本平均 x̄ を考えます。母集団が母平均 μ、母分散 σ² のとき、x̄ の確率分布には次の性質があります。

FORMULA

標本平均 x̄ の期待値：E(x̄) = μ
標本平均 x̄ の分散：V(x̄) = σ² / n
標本平均 x̄ の標準偏差：σ / √n

性質1：標本平均の期待値は母平均と一致

E(x̄) = μ ということは、「標本平均を何度も計算して平均を取れば、母平均と一致する」ということ。標本平均は、母平均の偏りなき推定値です。これが標本平均を推定値として使う理論的根拠になります。

性質2：標本サイズを大きくするとばらつきは小さくなる

V(x̄) = σ² / n という式の n に注目してください。標本サイズ n が大きいほど、分散は小さくなるのです。標準偏差で見ても σ / √n なので、n が4倍になると標準偏差は半分。

これは直感にも合いますね。たくさんの人の身長から平均を取れば、その値は安定する。100人の平均と1万人の平均を比べれば、後者のほうが「真の母平均」に近い、と感じるはずです。それを数式で表現したのが σ / √n という形なんです。

中心極限定理（参考）

ここで、3級レベルを少し超える内容ですが、知っておくと深い理解につながる定理を紹介します。

中心極限定理（ちゅうしんきょくげんていり、Central Limit Theorem）：母集団がどんな分布をしていても、標本サイズ n が十分大きいとき、標本平均 x̄ は正規分布に従う(近似的に)。

具体的には、x̄ は N(μ, σ²/n) という正規分布で近似できます。母集団自体がどんな歪な分布でも、標本平均をたくさん集めると正規分布の形になる──7-3で「世の中のあらゆる場面に正規分布が現れる」と書きましたが、その理由のひとつがこの定理にあります。

6. 標本比率の標本分布

もうひとつ、よく扱われるのが標本比率の標本分布です。

標本比率とは

標本の中で、ある条件を満たす要素の割合が標本比率 p̂。たとえば「標本100人のうち、内閣を支持すると答えた人が42人なら、p̂ = 42/100 = 0.42」となります。

標本平均と同じく、標本比率も標本のとり方で値が変わるので、確率変数です。だから、標本比率にも標本分布があります。

標本比率の期待値と標準偏差

母集団の母比率を p、標本サイズを n とすると、標本比率 p̂ の標本分布には次の性質があります。

FORMULA

標本比率 p̂ の期待値：E(p̂) = p
標本比率 p̂ の分散：V(p̂) = p(1−p) / n
標本比率 p̂ の標準偏差：√(p(1−p)/n)

これも標本平均と同じ構造です。期待値は母比率と一致し、サイズを大きくするとばらつきが小さくなります。n が大きいときは正規分布で近似できる(中心極限定理)、というのも同じ。

世論調査での標本サイズ

ニュースで「全国2,000人を対象に世論調査を実施しました」と聞いたことがあるかと思います。なぜ2,000人なのでしょうか？

これは標本比率の標本分布の性質と関係があります。p ≒ 0.5、n = 2000 とすると、標準偏差は √(0.5 × 0.5 / 2000) ≒ 0.0112。つまり±1.1%程度の誤差で母比率を推定できる、というわけです。日本国民1億人を相手にしても、2000人の標本で十分実用的な精度が得られる──統計学の力を実感しますね。

まとめ

第9章のスタートとなる本ページ、ポイントを整理しておきましょう。

統計的推測：標本から母集団を推測する営み。推定と仮説検定の2つのアプローチ
母集団パラメータ vs 標本統計量：母平均 μ ⇔ 標本平均 x̄、母比率 p ⇔ 標本比率 p̂ を必ず区別
標本平均は確率変数：標本のとり方で値が変わる
標本分布：標本統計量の確率分布
標本平均の標本分布：E(x̄) = μ、V(x̄) = σ² / n、σ(x̄) = σ / √n
標本比率の標本分布：E(p̂) = p、V(p̂) = p(1-p) / n
中心極限定理：n が大きいとき、x̄ や p̂ は正規分布で近似できる

次回は区間推定。「だいたいこの範囲に真の値がある」と誤差を含めた推定を行う方法を学びます。標本分布の性質が、ここで活躍します。

さえ

標本平均が確率変数で、その分布が標本分布──最初は不思議に感じても、ここがピンと来れば9-2と9-3はぐっと楽になるよ！　次は区間推定！