第3章 3-2 / 統計的推定

研究デザイン(観察研究・実験研究)

このページで学ぶこと

前回はデータを「どう要約して推定するか」を扱いました。今回はその一歩手前、「そもそもデータをどう集めるか」──研究デザインの話です。集め方を間違えると、どんなに丁寧に計算しても「因果関係」が言えなくなります。

本ページの主役は、観察研究と実験研究の違い、両者を分ける犯人ともいえる交絡、そして交絡を退治する切り札ランダム化比較試験(RCT)です。さらに、信頼できる実験の設計図であるフィッシャーの3原則まで一気に整理します。「観察研究では因果が言いにくい」という決まり文句の理由を、納得できる形でお渡しします。

さえちゃん
さえ

「アイスが売れる日は水難事故が増える」って聞いたことある? でもアイスが事故を起こすわけじゃないよね。裏に「気温」っていう共通の原因がいるの。これが今日の主役交絡! 研究デザインって、この“裏で糸を引くやつ”をどう退治するかの工夫なんだよ。

1. 観察研究と実験研究(直感)

データの集め方は、大きく2つに分かれます。違いは「研究者が条件を操作するかどうか」の1点です。

観察研究

観察研究(observational study)は、研究者は何も手を加えず、自然のままの状態を記録する研究です。誰が処理(たとえば喫煙)を受けるかは、本人や環境が勝手に決めます。「喫煙者と非喫煙者で肺がんの発症率を比べる」「年収と健康状態の関係を調べる」などが典型です。

実験研究

実験研究(experimental study)は、研究者が能動的に条件(処理)を割り当てて、結果がどう変わるかを見る研究です。「誰に新薬を、誰に偽薬を渡すか」を研究者が決めます。A/Bテストや新薬の臨床試験がこれにあたります。

観点 観察研究 実験研究
研究者の関わり観測のみ(介入しない)処理を割り当てる(介入する)
処理を受ける人の決まり方本人・環境が決める研究者が割り当てる
因果の言いやすさ弱い(相関どまりになりがち)強い
倫理・コスト制約が小さい制約が大きいことがある
疫学調査・市場調査臨床試験・A/Bテスト

この表の「因果の言いやすさ」の差が、今日いちばん大事なところ。なぜ観察研究では因果が弱いのか──その犯人が、次の交絡です。

2. 交絡 — 因果を歪める「第3の変数」

交絡(こうらく、confounding)とは、調べたい原因と結果の両方に影響する「第3の変数」が紛れ込み、見かけの関係を作り出してしまう現象です。この第3の変数を交絡因子(confounder)といいます。

定番の例:アイスと水難事故

「アイスの売上が多い日ほど、水難事故が多い」というデータがあったとします。だからといって「アイスを食べると溺れる」とは言えませんよね。両方を同時に押し上げている共通の原因──気温があるからです。暑い日はアイスも売れるし、泳ぐ人も増えて事故も増える。気温が交絡因子です。

交絡因子 (気温) 調べたい原因 (アイス売上) 結果 (水難事故) 見かけの相関

交絡因子が原因と結果の両方を動かすと、両者に「見かけの相関」が生まれる

もっと深刻な例:観察研究での落とし穴

医療や社会調査では、交絡はもっと巧妙です。たとえば「コーヒーをよく飲む人は病気が多い」という観察データが出たとします。でも、コーヒー好きには喫煙者が多いかもしれない。すると、病気の本当の原因はタバコで、コーヒーは巻き添えで悪者にされているだけかもしれません。喫煙が交絡因子です。

観察研究では、誰が処理(コーヒーをよく飲む)を受けるかを本人が決めるため、処理を受ける群と受けない群でもともとの性質がそろっていない。この「そろっていなさ」が交絡の温床です。これこそが、観察研究で因果が言いにくい根本理由です。

POINT

交絡とは、原因と結果の両方に効く第3の変数(交絡因子)が見かけの関係を作ること。観察研究では処理群と対照群の素性がそろわないため、観測された差が処理のせいか、もともとの違いのせいかを切り分けられません。「相関は因果ではない」の正体の多くは、この交絡です。

さえちゃん
さえ

観察研究のこわいところは、「気づかない交絡因子」がいるかもしれないこと。気温やタバコみたいに後から分かればいいけど、まだ誰も知らない第3の変数が裏にいたら? だから観察研究だけで「これが原因だ!」と断言するのは危ないんだよ。

3. ランダム化比較試験(RCT) — 交絡を退治する切り札

交絡を根本から断ち切る方法があります。ランダム化比較試験(randomized controlled trial, RCT)です。実験研究のなかでも最強の設計で、医学では「エビデンスの最高峰」とも呼ばれます。

仕組み:処理群と対照群にランダムに振り分ける

対象者を処理群(treatment group, 試したい処理を与える)と対照群(control group, 与えない)に分けるのは観察研究と同じ。違うのは、どちらに入るかをくじ引き(無作為)で決めることです。

なぜランダム化で交絡が消えるのか

ここが核心です。ランダムに振り分けると、年齢・性別・生活習慣・そしてまだ誰も知らない未知の交絡因子まで、2つの群にほぼ均等にばらけます。つまり処理以外の条件が平均的にそろう。だから、あとで現れた差は「処理のせい」と言い切れるのです。

対象者 (混在) ランダム化 処理群 処理を与える 対照群 処理を与えない(プラセボ)

対象者をランダムに2群へ。処理以外の条件が平均的にそろうので、差は処理に帰せる

プラセボと盲検

RCT には、心理的な影響を消すための工夫がセットでついてきます。

POINT

RCT の効き目の源は無作為割り当て。これにより既知・未知を問わず交絡因子が両群に均等にばらけ、「処理以外はそろっている」状態が作れます。さらにプラセボ+盲検で心理的バイアスも封じる。だから RCT は因果を最も強く主張できる設計なのです。

4. フィッシャーの3原則 — 信頼できる実験の設計図

実験を信頼できるものにするための古典的な指針が、統計学者ロナルド・A・フィッシャーのまとめた3原則です。農業実験の現場で確立され、今も医学・心理学・マーケティングまで、あらゆる実験計画の出発点になっています。

原則 英語 取り除く誤差・偏り
① 局所管理Local Control環境差などの体系的な誤差
② 無作為化Randomization研究者の意図など人為的な偏り(交絡)
③ 反復Replication偶然による誤差(偶然変動)

① 局所管理(Local Control)

調べたい条件以外を、できるだけそろえること。肥料の効果を見たいなら、土壌・日当たり・水やりを揃えます。条件が揃っていれば、結果の差を「肥料のせい」と絞り込めます。実験区を似た者どうしのブロックに分けて比較する「ブロック化」もこの発想です。

② 無作為化(Randomization)

どの対象にどの処理を割り当てるかを、ランダムに決めること。§3 で見たとおり、これが交絡を退治する心臓部です。「症状の軽い人を処理群に」などと人が決めると偏りが入るので、くじ引きや乱数で機械的に振り分けます。

③ 反復(Replication)

同じ条件の実験を複数回(複数のサンプルで)行うこと。1回や数個では、たまたまの結果かもしれません。サンプルを増やすほど偶然のばらつきが平均化されて消えていきます。これは前回 3-1 の標準誤差 $\mathrm{SE}=\dfrac{\sigma}{\sqrt{n}}$ と同じ理屈です。

FORMULA

反復が効く理由は、まさに標準誤差の式に表れています。 $$\mathrm{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}}$$ 反復数 $n$ を増やすほど推定のばらつきは $\dfrac{1}{\sqrt{n}}$ で縮み、偶然変動の影響が小さくなる。フィッシャーの「反復」は、数式の上ではこの $\sqrt{n}$ の効果そのものです。

5. 観察研究で因果が言いにくい理由 — まとめと使い分け

ここまでをつなげると、「観察研究では因果が言いにくい」という決まり文句が、すっきり説明できます。

EXAMPLE(同じ問いを2つの設計で)

「運動は血圧を下げるか?」を調べたいとします。

  • 観察研究:すでに運動している人と、していない人の血圧を比べる。だが運動する人は食生活も良いかもしれない(食生活が交絡因子)。血圧が低くても運動のおかげとは限らない。
  • RCT:参加者をランダムに「運動する群/しない群」に分け、一定期間後の血圧を比べる。食生活などはランダム化で両群にばらけるので、差が出れば運動の効果と言える。

とはいえ観察研究が劣っているわけではありません。倫理的に介入できない場合(「タバコを吸わせる実験」はできません)や、すでにあるデータを活かしたい場合長期・大規模な傾向を見たい場合には観察研究が主役です。実務では観察研究のほうが圧倒的に多い。だからこそ、その結論には交絡の可能性がついて回ることを忘れないのが、データを読む側の作法です。

POINT

因果を主張したいなら実験研究(できれば RCT)、倫理やコストで無理なら観察研究+交絡への注意。観察研究の結果を見たら、まず「裏に交絡因子はいないか?」と問う。これが2級でも実務でも効く、いちばん大事な反射神経です。

まとめ

第3章 3-2、ポイントを整理します。

次回 3-3 標本抽出法 では、「どう割り当てるか」と並んで重要な「どう選ぶか」を扱います。単純無作為抽出から層化・クラスター・多段抽出まで、それぞれの仕組みと長所短所、そして標本誤差・非標本誤差やバイアスを整理しましょう。

さえちゃん
さえ

今日のキーワードは「交絡」と「ランダム化」! 交絡=裏で糸を引く第3の変数、ランダム化=それをまとめてならす魔法。この2つがつながると、「なぜRCTが最強なのか」がスッと分かるよ。次は標本の“選び方”だよ〜!