全数調査と標本調査
前回は実験研究と観察研究でデータの集め方の2つのアプローチを学びました。今回は調査の規模に注目して、全数調査と標本調査を整理します。
「みんなを調べる」のと「一部だけ調べる」の違い、そして標本調査ならではの誤差の話──標本誤差、非標本誤差、そしてバイアスという3つのキーワードを軸に進めます。「みんな調べればいい」が現実には難しいこと、標本にバイアスが混じると全体像が歪むこと、調査の現実を見ていきましょう。
1. 母集団と標本 ─ 統計学の基本用語
まずは、これから何度も登場する2つの用語を整理しておきましょう。母集団と標本です。
母集団
母集団(ぼしゅうだん、population)とは、調査対象となる「全部」のことです。「日本の有権者全員」「ある工場で生産された全製品」「全国の中学3年生全員」など、調査の興味の対象となるすべての要素の集まりを指します。
標本
標本(ひょうほん、sample)とは、母集団から取り出した一部のことです。「日本の有権者全員」が母集団なら、「無作為に選んだ2,000人」が標本。「全国の中学3年生」が母集団なら、「ある県の100人」が標本、というイメージです。サンプルとも呼ばれます。
図でイメージする
母集団は「全部」、標本はその中から取り出した「一部」
母集団のすべてを調べるのが全数調査、標本だけを調べて全体を推測するのが標本調査です。それぞれを順番に見ていきましょう。
母集団=調査したい全体、標本=そこから取り出した一部。この2つの言葉は、第8章はもちろん、推測統計(2級以降)でも繰り返し登場する基本用語です。
2. 全数調査 ─ みんな調べる
全数調査(ぜんすうちょうさ、census)とは、母集団のすべてを調べる調査です。一人残らず・一個残らず、漏れなく調べる。これができれば、それ以上ない正確な情報が得られます。
全数調査の代表例:国勢調査
日本でいちばん有名な全数調査は、国勢調査でしょう。5年に1度、日本に住むすべての人と世帯を対象に行われる、国でもっとも重要な統計調査です。1920年(大正9年)から続いていて、人口・世帯・職業・居住状況などを把握するために実施されています。
国勢調査の結果は、地方交付税の配分、国会議員の選挙区の区割り、市町村の合併、行政サービスの計画など、社会のあらゆるところで使われます。「日本社会のインフラ」と言ってもいい、特別な調査です。
全数調査のメリットとデメリット
| 観点 | 全数調査 |
|---|---|
| 正確性 | 原理的には完璧(全員調べるため) |
| コスト | 非常に高い(時間・人手・予算) |
| 実施頻度 | 低い(国勢調査は5年に1度) |
| データ取得まで | 時間がかかる |
| 適している場面 | 悉皆性が必須の調査、法定調査 |
理屈上は完璧ですが、「調べる対象が多すぎてコストが見合わない」「そもそも全員に到達できない」といった現実的な問題があります。実は、ここが本ページの大事なポイントなんです。
「みんなを調べれば完璧」って思いがちだけど、実は「みんな」を本当に集めるのって、すごく大変なんだよ!
3. 全数調査の現実 ─ 国勢調査2020の例
ここで、全数調査の現実を象徴するエピソードをご紹介します。2020年(令和2年)の国勢調査です。
新型コロナ禍での調査
2020年の国勢調査は、新型コロナウイルスの感染拡大の中で実施されました。在宅ワークが余儀なくされていた期間、飲食店も営業自粛を余儀なくされ、家にいる時間が本当に多かったですよね。回収率は高めに出るかなぁと思っていましたが…。
結果:回収率は約8割
法律で回答が義務とされている国勢調査ですが、調査票の回収率は約80%にとどまりました。最終的な回収率でも、約83.7%でした。
つまり、全国民を対象とする全数調査ですら、約2割の世帯から回答が得られなかったということです。これは衝撃的な事実です。「全数調査」と銘打っていても、実際には完全な「全数」にはたどり着けないのが現実なんですね。
未回収率は年々上昇している
参考までに、過去の国勢調査の未回収率(聞き取り調査で補完した世帯の割合)の推移を見てみましょう。
| 調査年 | 未回収率 | 背景 |
|---|---|---|
| 2000年 | 1.7% | ほぼ全戸から回答 |
| 2005年 | 4.4% | 都市部で未回収増加 |
| 2010年 | 8.8% | オートロックマンションの増加 |
| 2015年 | 13.1% | 訪問販売・特殊詐欺への警戒 |
| 2020年 | 16.3% | 新型コロナの影響で対面回避 |
20年で未回収率が約10倍になっています。背景には、オートロックマンションで会えない、不審な訪問への警戒心、共働き世帯で不在がち、といった現代社会の事情があります。「全員を調べる」ことが、技術的にも社会的にもどんどん難しくなっているのが実情です。
全数調査は、理屈の上では完璧でも、現実には「100%の回収」が極めて難しい。国勢調査でさえ、未回収率は年々上昇しています。「母集団の完全データを揃えるのは、ほぼ不可能」──これが現代のデータ収集の前提なんです。
4. 標本調査 ─ 一部から全体を推測する
全員を調べるのが難しいとなれば、現実的な選択肢は標本調査です。
標本調査とは
標本調査(ひょうほんちょうさ、sample survey)は、母集団から一部を取り出して調べ、その結果から母集団全体を推測する方法です。世論調査、視聴率調査、市場調査、テレビの選挙速報──私たちが日常で目にする調査のほとんどすべてが標本調査です。
標本調査の身近な例
- 世論調査:日本国民1億人を調査するのは無理。約2,000人に電話で聞いて、全体の傾向を推測
- 視聴率調査:全テレビ視聴者を調べるのは無理。サンプル世帯の視聴データから推定
- 選挙速報:投票締切直後に「当選確実」が出るのは、出口調査(投票所での標本調査)の結果に基づく
- 製品検査:1日10万個作る工場で全数検査は無理。一部を抜き取り検査
標本調査のメリットとデメリット
| 観点 | 標本調査 |
|---|---|
| 正確性 | 誤差は出るが、適切に行えば十分実用的 |
| コスト | 低い |
| 実施頻度 | 高い(毎月・毎週でも実施可能) |
| データ取得まで | 速い |
| 注意点 | 標本の選び方を間違えると、全体像を誤解する |
標本調査の難しさは、「標本が母集団を正しく代表しているか」──つまり標本の選び方にあります。間違った選び方をすると、いくらサンプル数を増やしても正確な全体像にはたどり着けません。次回の8-4 無作為抽出法で、適切な選び方を学びます。
5. 標本調査の誤差 ─ 標本誤差と非標本誤差
標本調査では、母集団そのものを調べていないため、必ず誤差が発生します。この誤差は2種類に分けられます。標本誤差と非標本誤差です。
標本誤差(sampling error)
標本誤差は、「全部ではなく一部を調べた」ことから必然的に生じる誤差です。母集団から標本を取り出すたびに、選ばれる人や物が違うので、結果も少しずつ変わります。これは避けられない、構造的な誤差です。
たとえば、日本国民の平均身長を調べたいとして、無作為に2,000人を選んで測ったとします。今日選んだ2,000人の平均と、明日違う2,000人を選んで測った平均は、ぴったり同じにはなりません。これが標本誤差です。
重要なのは、標本誤差はサンプル数を増やせば小さくなること。サンプルが多いほど、母集団に近い結果が得られます(これが第8章2「フィッシャーの三原則」の「繰り返し」の発想です)。
非標本誤差(non-sampling error)
非標本誤差は、「標本を取った」こと自体とは関係なく、調査のやり方や答え方に起因する誤差です。種類が多く、たちが悪いことに、サンプル数を増やしても消えないのが特徴です。
非標本誤差にはこんな種類があります。
- 無回答による誤差:質問に答えてもらえない場合の偏り
- 測定の誤差:質問の意味を取り違える、機器の精度が低い
- 記録の誤差:データ入力ミス、転記ミス
- 標本枠の誤差:そもそも調査対象のリストに漏れがある
- 回答者のバイアス:本心ではない答えをする(社会的に望ましい答えを選ぶ等)
2つの誤差の比較
| 観点 | 標本誤差 | 非標本誤差 |
|---|---|---|
| 原因 | 一部だけ調べているため | 調査の手法・運用 |
| サンプル数を増やすと | 小さくなる | 変わらない、または悪化 |
| 対策 | サンプル数の確保 | 調査設計の改善 |
| 気づきやすさ | 計算で予測可能 | 気づきにくい(隠れていることが多い) |
標本誤差は、計算で「だいたいこのくらい」と見積もれます。一方、非標本誤差は気づかないうちに紛れ込み、結果を大きく歪めることがあります。標本調査でいちばん怖いのは、実は非標本誤差のほうなんです。
標本誤差は「一部しか見ていない」ことによる必然の誤差。サンプル数で対応できます。一方、非標本誤差は「調査のやり方」による誤差。サンプル数を増やしても消えないので、調査設計の段階で気をつけることが肝心です。
「サンプル増やせば全部解決!」じゃないんだよ! 非標本誤差はサンプル増やしても消えないから、最初の調査設計が本当に大切なんだよ!
6. バイアス ─ 標本に偏りが混じる
標本調査でとくに警戒すべきなのが、バイアス(bias、偏り)です。バイアスは非標本誤差の代表格で、標本が母集団を偏った形で代表してしまう状態を指します。
バイアスの典型例:選挙調査の失敗
バイアスの教科書的な例として、よく語られるエピソードがあります。1936年のアメリカ大統領選挙での話です。
ある雑誌が事前の世論調査で、237万人もの大規模なサンプルを集めて選挙結果を予測しました。これだけサンプル数が多ければ、間違えるはずがない──と思いきや、実際の選挙結果と大きく外れてしまったんです。
原因は何だったでしょうか? 標本の集め方にありました。電話帳と自動車登録名簿から名前を集めたのですが、当時の電話や自動車を持っていたのは裕福な層に偏っていました。経済的に苦しい層の意見がほとんど標本に入っていなかったため、調査結果は実態を反映していなかった、というわけです。
この事件は、「サンプル数が多くても、選び方が偏っていれば結果は狂う」という統計学の重要な教訓を残しました。
バイアスの種類
バイアスにはいくつかの典型的なパターンがあります。
- 選択バイアス:標本の選び方が偏っている(電話を持っている人だけ等)
- 無回答バイアス:質問に答えなかった人と答えた人で性質が違う
- 回答バイアス:回答者が本心ではない答えをする(ダイエット中と答えがち、収入を多めに言いがち等)
- 測定バイアス:質問の表現や順序が回答に影響する
バイアスへの対策
バイアスを避けるために、調査者ができることがあります。
- 標本を無作為に選ぶ(8-4で詳しく)
- 無回答が多い場合の影響を分析する
- 質問の表現を工夫する(誘導的な聞き方を避ける)
- 複数の調査方法を組み合わせる(電話+郵送+ウェブなど)
とくに無作為抽出は、バイアスを避けるためのもっとも基本的かつ強力な道具です。次回の8-4 無作為抽出法で、その具体的な方法を学びます。
標本にバイアスが混じると、正確な全体像が見えなくなります。サンプル数の多さは、バイアスの問題を解決してくれません。「どう選ぶか」が「どれだけ集めるか」より重要──これが標本調査の鉄則です。
237万人も集めて外れたなんて衝撃! 量より質、選び方が命なんだね!
まとめ
第8章3回目の本ページ、ポイントを整理しておきましょう。
- 母集団:調査対象の全体。標本:その一部
- 全数調査:母集団全部を調べる(国勢調査など)
- 全数調査の現実:100%の回収は極めて難しく、国勢調査でも未回収率が増加傾向
- 標本調査:標本から全体を推測する。世論調査・視聴率・選挙速報など、ほとんどの調査
- 標本誤差:一部だけ調べることによる必然の誤差。サンプル数で対応可能
- 非標本誤差:調査のやり方による誤差。サンプル数では解決しない
- バイアス:標本の選び方が偏ること。サンプル数の多さでは解決しない
「全員調べる」が難しい現代では、「いかに賢く一部を選ぶか」が調査の質を決める鍵になります。次回はいよいよ第8章の最後、無作為抽出法。バイアスのない標本を選ぶための、具体的な方法を学んでいきましょう。