第8章 8-4 / データの収集:実験・観察・調査

無作為抽出法

このページで学ぶこと

第8章ファイナルです。前回の全数調査と標本調査で、「サンプル数より選び方が大切」という標本調査の鉄則を学びました。今回は、その「賢い選び方」の中心になる無作為抽出法を整理します。

統計検定3級の出題範囲は単純無作為抽出法が中心ですが、本ページでは実務でよく使われる系統抽出法・層別抽出法・多段抽出法・集落抽出法もあわせて紹介します。実際の調査現場ではこれらを使い分けるので、知っておくと統計の世界がぐっと立体的に見えてきます。

1. なぜ「無作為に選ぶ」のか

まず、「無作為に選ぶ」という発想そのものを整理しておきましょう。

無作為とは「ランダム」のこと

無作為(むさくい、random)とは、「人間の意図やパターンを介在させずに、機械的に選ぶ」こと。くじ引き、サイコロ、コンピュータの乱数、抽選機──こうした方法でサンプルを選びます。

なぜランダムが大切なのか

前回学んだとおり、標本調査でいちばん怖いのはバイアス(偏り)でした。標本の選び方が偏っていると、いくらサンプル数を増やしても正確な全体像にはたどり着けません。

では、どうすれば偏りを避けられるか? その答えが「無作為に選ぶ」です。人間の意図や、何らかのパターンを排除して機械的に選ぶことで、母集団のすべての要素に「選ばれる平等な機会」を与える──これが無作為抽出の本質です。

そして、無作為抽出にはもうひとつ大切な性質があります。標本誤差を計算で予測できること。ランダムに選んだ標本なら、「だいたいこのくらい誤差があるはず」と数学的に推定できます。これは2級以降で学ぶ推測統計の基礎にもなります。

POINT

無作為抽出は「人間の意図を排除して機械的に選ぶ」方法。これによりバイアスを避け、なおかつ標本誤差を数学的に扱えるようになります。標本調査の信頼性の基礎です。

さえちゃん
さえ

「公平に選ぶ」って、人間が考えると意外と難しいんだよね! だから機械や乱数の力を借りて、ランダムに選ぶのがいちばん公平なんだよ!

2. 単純無作為抽出法 ─ 3級の中心

無作為抽出法の中でいちばん基本的なのが、単純無作為抽出法(たんじゅんむさくいちゅうしゅつほう、simple random sampling)です。3級の出題範囲はこの方法が中心です。

単純無作為抽出法とは

単純無作為抽出法は、「母集団のすべての要素を区別せず、すべてに同じ確率で選ばれる機会を与える」方法です。シンプルに言えば、くじ引きそのものです。

具体的な手順

たとえば、ある会社の社員1,000人から100人を無作為抽出する場合の手順を見てみましょう。

EXAMPLE
  1. 1,000人全員に1から1,000までの番号を割り当てる
  2. 1〜1,000の数値からランダムに100個の数を選ぶ(乱数表・ExcelのRAND関数・専用ソフトを使う)
  3. 選ばれた番号に対応する社員を標本とする

Excelで簡単に試す

Excelでも、この単純無作為抽出は関数で簡単に実現できます。例えば「1〜1000の番号から100個ランダムに選ぶ」場合、各社員に対して=RAND()関数で乱数を割り当て、乱数の値で並べ替えて上位100人を選ぶ、という方法があります。

単純無作為抽出のメリットとデメリット

観点 単純無作為抽出法
公平性非常に高い(全員が同じ確率)
計算のしやすさシンプル(統計理論との相性が良い)
実施の手軽さ母集団リストが必要(全員のリストが揃う場合のみ)
デメリット母集団が大きいと現実的に難しい場合がある

単純無作為抽出は理論上もっとも公平で、統計的に扱いやすい方法です。3級の問題で「無作為抽出」という言葉が出てきたら、原則としてこの単純無作為抽出を指していると考えてください。

POINT

単純無作為抽出法は「母集団全員に同じ確率で選ばれる機会を与える」方法。理論的にもっとも公平で、3級の中心となる手法です。実装はくじ引きや乱数で行えます。

さえちゃん
さえ

3級ではこの「単純無作為抽出」が中心! くじ引きと同じシンプルな考え方だから、しっかり押さえておこう!

3. 実務で使われるほかの抽出法

ここからは、3級の出題範囲を少し超える内容になりますが、実務で頻繁に使われる4つの抽出法を簡潔に紹介します。それぞれに使いどころと特徴があり、現場では単純無作為抽出よりこれらの方法が選ばれることも多いのです。

① 系統抽出法(systematic sampling)

系統抽出法は、「最初の1人だけランダムに選び、あとは一定間隔で機械的に選ぶ」方法です。等間隔抽出法とも呼ばれます。

EXAMPLE

1,000人から100人を選びたい場合:

  • 抽出間隔 = 1,000 ÷ 100 = 10
  • 1〜10の中からランダムに1つ選ぶ(例:3)
  • 3、13、23、33、43、…と10おきに選ぶ → 100人

メリット:実施が簡単で、母集団リスト全体に均等に標本が散らばる。注意点:母集団に何らかの周期的なパターンがあると、その周期と抽出間隔が重なって偏りが生じることがあります。

② 層別抽出法(stratified sampling)

層別抽出法は、「母集団をいくつかのグループ(層)に分けて、それぞれの層から無作為抽出する」方法です。第4章で学んだ層別散布図の発想と同じく、性別・年代・地域などで分けます。

EXAMPLE

全国民1億人から1,000人の世論調査を行う場合:

  • 地域別に層分け:北海道・東北・関東・中部・近畿・中国・四国・九州沖縄
  • 各地域の人口比に応じて、それぞれの層から無作為抽出
  • 例:関東は人口の3割なので300人、北海道は4%なので40人

メリット:各層を確実に代表させられる(少数派の声も反映)。使いどころ:母集団に明確な層構造があり、層ごとの違いが重要な場合。世論調査・国民健康調査・市場調査でよく使われます。

③ 多段抽出法(multi-stage sampling)

多段抽出法は、「母集団を段階的にしぼり込みながら無作為抽出する」方法です。大きな単位から小さな単位へと、複数段階で抽出を行います。

EXAMPLE

全国の小学6年生の学力調査を行う場合:

  • 第1段階:全国の市区町村から100か所を無作為抽出
  • 第2段階:選ばれた市区町村から、それぞれ小学校を3校無作為抽出
  • 第3段階:選ばれた小学校から、6年生の1クラスを無作為抽出

メリット:母集団全員のリストがなくても調査できる(各段階のリストがあれば十分)。使いどころ:母集団が広範囲で、全員リストが入手できない場合。コスト削減のために実施場所を絞れる。

④ 集落抽出法(cluster sampling、クラスター抽出法)

集落抽出法は、「母集団を小さなグループ(集落)に分けて、いくつかの集落を無作為抽出し、その集落の全員を調査する」方法です。クラスター抽出法とも呼ばれます。

EXAMPLE

ある市の小学生の意識調査を行う場合:

  • 市内の小学校(集落)から、5校を無作為抽出
  • 選ばれた5校の全児童を調査

メリット:実地調査の範囲を絞れるので、コストと時間を大きく節約できる。注意点:同じ集落内の対象は似ていることが多いため、無作為性が下がる傾向があります。

4つの抽出法の比較

抽出法 選び方 主な利点 使われる場面
単純無作為全員から等確率で理論上もっとも公平母集団リストが揃う場合
系統抽出一定間隔で実施が簡単順序のあるリストから抽出
層別抽出層ごとに無作為少数派も代表できる世論調査・国民調査
多段抽出段階的にしぼり込む全員リスト不要全国規模の学力調査
集落抽出集落ごと丸ごとコスト削減地域単位の調査
POINT

実務では、調査の目的・予算・母集団リストの有無に応じて抽出法を使い分けます。3級の中心は単純無作為抽出ですが、現場では層別抽出と多段抽出がよく使われます。

さえちゃん
さえ

たくさん種類があってちょっと圧倒される? でも大丈夫! 3級では「単純無作為抽出」がしっかり押さえられていればOK! ほかは「こういう方法もあるんだなぁ」くらいで大丈夫!

4. 抽出法の使い分け ─ 現場の感覚

これらの抽出法、実際の現場ではどう使い分けられているのでしょうか。少し具体例で見てみましょう。

世論調査の場合

新聞社や放送局が行う世論調査は、層別抽出+多段抽出を組み合わせることが多いです。地域別に層を分け、各層から無作為に電話番号や住所を選ぶ。これで「地域に偏らず、母集団リスト不要」を両立しています。

製造業の品質検査の場合

工場で製品の不良品率を調べたい場合、系統抽出がよく使われます。1時間に1個抜き取る、100個ごとに1個チェックする──ライン上の流れに沿って実施しやすい方法です。

マーケティング調査の場合

新商品のテスト販売は、集落抽出が使われることがあります。特定の地域だけで先行販売してデータを取り、全国展開の判断材料にする──集落ごと丸ごと調べる発想です。

3級の問題で求められる視点

3級の試験では、「無作為抽出とは何か」「なぜ無作為が大切か」を理解していれば十分です。具体的な抽出法の名前を全部覚える必要はありません。むしろ、「無作為で選ぶことの意味」を本質的に理解しているかが問われます。

5. 第8章のまとめ ─ そして第8章完了

第8章「データの収集:実験・観察・調査」、ここで完了です。最後に、章全体を振り返っておきましょう。

第8章で学んだこと

第8章の核心メッセージ

第8章を通して伝えたかったのは、「分析の前に、データの集め方が決定的に重要」ということ。どんなに高度な分析手法を使っても、もとのデータが偏っていたら、正しい結論にはたどり着けません

これは料理にたとえるなら、「腐った食材を、最高の調理技術で料理しても、おいしくはならない」のと同じ。データ分析は、データの収集から始まっています。第1章〜第7章で学んだ分析スキルを活かすためにも、データの集め方への理解は欠かせません。

無作為抽出の発想は、現代の必須教養

最後にもう一度強調しておきたいのは、無作為抽出の発想。これは統計学だけでなく、ビジネス・教育・医療・行政など、データを扱うあらゆる場面で必要な感覚です。「サンプル数より、選び方」──この鉄則を心に刻んでおいてください。

さえちゃん
さえ

第8章おつかれさま! データ分析の「前段階」、超重要パートを学べたね! ここまで来たら、もう統計検定3級の主要トピックはほぼ全部! あとひと息、頑張ろう!