区間推定
前回は標本から母集団を推測する考え方と、標本分布の性質を整理しました。今回はそれを応用した区間推定──「真の値はだいたいこの範囲にある」と幅を持って推測する方法を学びます。
本ページでは、母平均の信頼区間と母比率の信頼区間の求め方を整理し、最後に「信頼区間の本当の意味」──ここは初学者が誤解しがちな大事なポイントですので、丁寧に押さえていきます。
区間推定は「だいたいこの範囲」と幅を持って答える方法! ニュースの「内閣支持率は40〜46%」みたいなあれだよ! 第7章の正規分布、第9章の標本分布、ぜんぶここで合流するよ!
1. 点推定と区間推定
まずは「点推定」と「区間推定」の対比から入りましょう。
点推定 ─ ピンポイントで当てに行く
9-1で扱ったのは点推定(point estimation)でした。「100人の身長の標本平均が170.5cmなら、母平均はだいたい170.5cm」というように、1つの数値で母集団のパラメータを推定するやり方です。
点推定はシンプルでわかりやすい一方、誤差の情報がありません。「母平均は170.5cm」と言っても、本当に170.5cmぴったりかは怪しい。標本のとり方で値は揺れるからです。
区間推定 ─ 範囲で答える
そこで登場するのが区間推定(interval estimation)。「母平均は169.3cm 〜 171.7cm の範囲にある」のように、幅を持った推定を行います。
この幅のことを信頼区間(confidence interval)と呼びます。「95%信頼区間」「99%信頼区間」のように、信頼度を付けて表現します。
| 観点 | 点推定 | 区間推定 |
|---|---|---|
| 表現 | 1つの数値 | 下限 〜 上限の範囲 |
| 例 | μ = 170.5cm | 169.3cm ≤ μ ≤ 171.7cm |
| 誤差の情報 | 含まない | 含む(幅の広さ) |
| 使い分け | シンプルに値を伝える | 誤差を含めて誠実に伝える |
実務では、区間推定のほうが圧倒的に大切です。「内閣支持率は42%」だけより「内閣支持率は40%〜44%(95%信頼区間)」のほうが、誤差を含んだ正確な情報になりますよね。
2. 95%信頼区間 ─ 「±1.96σ」が鍵
ここから本題、95%信頼区間の求め方を見ていきます。
正規分布の95%の範囲
7-3で学んだ通り、標準正規分布では μ ± 1.96σ の範囲に約95%が入ります(より正確には、Z = ±1.96の間に95%)。
μ ± 1.96σ の範囲に95%、外側の両端それぞれに2.5%が入る
つまり、Z が −1.96 から 1.96 の間に95%の確率で収まるということです。この性質が、95%信頼区間を作る原動力になります。
母平均の95%信頼区間の式
9-1で見たとおり、標本平均 x̄ は標本分布 N(μ, σ²/n)に従います(中心極限定理)。これを標準化すると Z = (x̄ − μ) / (σ/√n) となり、Z は標準正規分布に従います。
Zが−1.96〜1.96に入るのは確率95%、つまり:
−1.96 ≤ (x̄ − μ) / (σ/√n) ≤ 1.96
これを μ について解くと(中の式を変形すると)、次の式が得られます。
母平均 μ の95%信頼区間:
x̄ − 1.96 × (σ/√n) ≤ μ ≤ x̄ + 1.96 × (σ/√n)
ここで使っている要素を整理しましょう。
- x̄:標本平均(計算で出した中心の値)
- 1.96:標準正規分布で95%を含む幅の係数
- σ/√n:標本平均の標準偏差(9-1で学習)
「標本平均を中心にして、その左右に±1.96 × σ/√n の幅を取る」──これが95%信頼区間の正体です。第7章の知識(±1.96σで95%)と、9-1の知識(標本平均の標準偏差は σ/√n)が、ここで美しく合流するんですね。
具体例
ある工場で生産される製品の重さは正規分布に従い、母標準偏差は σ = 10g とわかっています。100個を無作為に抜き取って重さを測ったところ、標本平均は 250g でした。母平均 μ の95%信頼区間を求めてください。
解答
公式に当てはめます。
- x̄ = 250
- σ = 10
- n = 100、よって σ/√n = 10/10 = 1
- 1.96 × 1 = 1.96
よって95%信頼区間は:
250 − 1.96 ≤ μ ≤ 250 + 1.96
248.04 ≤ μ ≤ 251.96
「母平均は約 248g 〜 252g の間にある」と95%の信頼度で言える、ということになります。
信頼度を変えると幅も変わる
95%以外の信頼度を使う場合は、係数 1.96 のところを変えます。
| 信頼度 | 係数 | 意味 |
|---|---|---|
| 90% | 1.645 | 幅は狭いが、外す確率が10% |
| 95% | 1.96 | もっとも標準的 |
| 99% | 2.576 | 幅は広いが、外す確率は1% |
信頼度を高くすると、区間の幅が広くなります。「絶対外したくない」と思うほど、答えの範囲が広がる──直感に合いますね。3級の試験でもっとも頻出なのは95%信頼区間です。
3. 母比率の信頼区間
続いて、母比率 p の信頼区間を見ていきましょう。考え方は母平均と同じです。
標本比率の標本分布
9-1で学んだとおり、標本比率 p̂ の標本分布の標準偏差は √(p(1−p)/n) でした。n が大きいとき、p̂ は正規分布で近似できます(中心極限定理)。
母比率の95%信頼区間の式
母平均と同じ発想で式を立てると、母比率の95%信頼区間は次のようになります。
母比率 p の95%信頼区間:
p̂ − 1.96 × √(p̂(1−p̂)/n) ≤ p ≤ p̂ + 1.96 × √(p̂(1−p̂)/n)
母比率 p は不明なので、計算では標本比率 p̂ で代用します(p̂(1−p̂) の部分)。母平均のときの「σ」と同じく、本来は母集団の値を使いたいけれど、わからないので標本の値で近似する、という発想です。
具体例:選挙の出口調査
ある選挙区で出口調査を実施し、500人に支持する候補を尋ねたところ、A候補と回答したのが250人でした。A候補の真の得票率(母比率 p)の95%信頼区間を求めてください。
解答
まず標本比率を計算します。
- p̂ = 250 / 500 = 0.5
- p̂(1−p̂) = 0.5 × 0.5 = 0.25
- p̂(1−p̂)/n = 0.25 / 500 = 0.0005
- √(0.0005) ≒ 0.0224
- 1.96 × 0.0224 ≒ 0.0438
よって95%信頼区間は:
0.5 − 0.0438 ≤ p ≤ 0.5 + 0.0438
0.4562 ≤ p ≤ 0.5438
パーセント表記なら「A候補の得票率は約45.6%〜54.4%(95%信頼区間)」となります。
選挙特番で見る「議席予測」の正体
選挙特番でよく目にする「A党は○○議席〜○○議席の見込み」という幅を持った予測──これは、まさに信頼区間の発想そのものです。投票締切と同時に「当選確実」が出たり、「議席数は◯◯〜◯◯」と予測されたりするのは、出口調査の標本比率から計算した信頼区間を使っているからなんです。
「議席数」のピンポイント予想が出ないのは、得票率に必ず誤差があり、その誤差が議席数の幅として反映されるから。選挙特番は、信頼区間が一般市民の目に見える形で登場する数少ない場面と言えます。今度の選挙特番では、ぜひこの視点で予測の数字を見てみてください。
4. 信頼区間の意味 ─ よくある誤解
ここからが本ページのもっとも大切なパート。「信頼区間」の正しい意味を整理します。これは初学者がよく誤解する箇所です。
よくある誤解
「95%信頼区間が 0.451 〜 0.549」と言われたとき、多くの人は次のように考えがちです。
❌ 誤解:「真の母比率は、95%の確率でこの区間に入っている」
これは厳密には正しくありません。直感的にはそう感じてしまうのですが、統計学の立場では違う解釈をします。
正しい解釈
⭕ 正しい解釈:同じ手順で何度も標本を取って信頼区間を作ったら、そのうち95%の区間が真の母比率を含む
ちょっと哲学的な違いに見えますが、これは大事な区別です。真の値(母比率 p)は固定されたひとつの値で、確率的に動くものではありません。動くのは標本のほうで、それに合わせて信頼区間も動きます。
図でイメージする
標本ごとに信頼区間は変わる。20本作れば、約19本(95%)は真の値を含み、約1本(5%)は外れる
なぜ厳密に区別するのか
「95%の確率で真の値を含む」と「95%の区間が真の値を含む」、似ているのに何が違うのでしょうか?
ポイントは「確率の主語」です。前者だと「真の値が動く(確率的に変動する)」と聞こえます。でも、真の値(μ や p)は確率的に動きません。固定された定数です。動いているのは「標本」とそれから作られる「信頼区間」のほう。
これは哲学的な区別に見えますが、統計学の頻度主義という立場では大事な区別です。3級の試験では、選択肢の文章にこの違いが含まれることがあるので、解釈を正確に押さえておきましょう。
「真の値が確率的に動く」のではなく、「区間が確率的に動く」──ここが信頼区間の正しい理解です。
5. 区間推定のまとめ
第9章2回目の本ページ、ポイントを整理しておきましょう。
- 点推定 vs 区間推定:1つの値で答えるか、範囲で答えるか
- 95%信頼区間の鍵:標準正規分布で±1.96σの範囲が95%
- 母平均の95%信頼区間:x̄ ± 1.96 × (σ/√n)
- 母比率の95%信頼区間:p̂ ± 1.96 × √(p̂(1−p̂)/n)
- 信頼度と幅:信頼度を高めると幅が広くなる(係数が大きくなる)
- 標本サイズ:nを大きくすると誤差幅は狭くなる(√nが分母)
- 信頼区間の正しい解釈:「真の値が95%の確率で入る」ではなく「95%の区間が真の値を含む」
次回はいよいよ最後、仮説検定。「立てた仮説が正しいかどうかを統計的に判断する」方法を整理して、3級の旅を締めくくります。
区間推定、つかめたかな? 信頼区間の意味は微妙な区別だけど、ここを正しく理解しておくと次の仮説検定もスムーズに入ってくるよ! 次回はラスト、仮説検定!