相関と因果
第4章ファイナル。相関係数や散布図でデータの関係性を見てきましたが、最後にもっとも大切な落とし穴を整理します。それが──「相関があるからといって、原因と結果の関係(因果)があるとは限らない」という事実です。
本ページでは、相関と因果の違い、疑似相関の正体、そして相関を見つけてから因果に到達するまでのプロセスを整理します。最後に、データ分析の世界で語り継がれる「おむつとビール」のエピソードもご紹介します。
1. 相関と因果は別物
まず、用語の整理から始めましょう。相関と因果は、似ているようでまったく違う関係性を表します。
相関 ─ 「一緒に動く」関係
相関は、「一方の値が変わると、もう一方の値も変わる傾向がある」という関係です。同じ方向に動けば正の相関、逆に動けば負の相関──第4章でずっと扱ってきた関係性ですね。
ここで大事なのは、相関は「一緒に動いている」という事実だけを表していて、その動きの原因や仕組みは何も教えてくれないことです。
因果 ─ 「原因と結果」の関係
因果(いんが、causation)は、「Aが原因となって、結果としてBが起きる」という関係です。Aを変えると、Bも変わる──しかもAを操作したからこそBが変わったと確信できる関係です。
たとえば「水をたくさん飲むと、トイレに行く回数が増える」は因果です。水を飲むという原因が、トイレ回数の増加という結果を引き起こしています。
違いを一言で
| 関係 | 意味 | 確認できること |
|---|---|---|
| 相関 | 一緒に動いている | 2変数が連動している事実 |
| 因果 | 原因と結果の関係 | Aを変えるとBが変わる仕組み |
「相関 = 因果」ではない。これがデータ分析でもっとも大切な原則です。相関係数が高いからといって、すぐに「AがBの原因だ!」と結論づけてはいけません。
「一緒に動いてる」と「原因と結果」は、まったく違うんだよ! ここを混同すると、データ分析で大きな間違いを犯すことになるから、今日のページが第4章でいちばん大事かも!
2. 疑似相関 ─ 第3の変数が隠れている
相関と因果を取り違える典型的な原因が、疑似相関(ぎじそうかん、spurious correlation)です。「2つの変数の間に相関があるように見えるけれど、本当はその裏に別の原因がある」という現象を指します。
有名な例:アイスクリームと水難事故
もっとも有名な疑似相関の例が、これです。
「アイスクリームの売上が増えると、水難事故も増える」──実際にデータを取ると、両者には強い正の相関があります。
この相関を見て、「アイスクリームを食べると水難事故が起こりやすくなるのか?」と考えてしまったら、大きな間違いです。アイスクリームと水難事故は直接的には関係がないからです。
裏に隠れている第3の変数
実は両者の裏には、「気温」という第3の変数が隠れています。
- 気温が高くなる → アイスクリームが売れる
- 気温が高くなる → 海や川に行く人が増える → 水難事故が増える
アイスクリームの売上と水難事故が「一緒に動いている」のは、両者ともが気温に引っ張られているからなんです。アイスクリームが水難事故の原因ではなく、両者の共通の原因が気温というわけです。
このように、疑似相関の裏には、ほとんどの場合「第3の変数」(共通の原因)が潜んでいます。これを見つけることが、相関を正しく解釈する鍵になります。
身近な疑似相関の例
- 足のサイズと文章力:強い正の相関 → 共通の原因は「年齢」(小学生〜大人で両方が大きくなる)
- 消防車の出動数と火災被害額:正の相関 → 共通の原因は「火災の規模」
- チョコレート消費量とノーベル賞受賞者数:国別データで強い相関 → 共通の原因は「国の豊かさ・教育水準」
どの例でも、「2変数の関係性を直接見るだけでは見えない、第3の変数」が原因として働いています。相関を見つけたら、「裏に何かないか?」を疑うクセをつけることが大切です。
疑似相関とは「2変数間に相関はあるが、両者の裏に共通の原因がある」状態です。相関係数が高くても、それが直接的な因果関係を意味するとは限りません。
「アイス食べたから事故が起きる」って言ったらおかしいよね。でも、データだけ見ていると、本気で信じちゃいそうな結論が出てしまうこともあるんだよ! 第3の変数を疑う発想が大切!
3. 相関から因果へ ─ 検証のプロセス
では、相関を見つけたとき、私たちはどう動けばいいのでしょうか? ここでは、相関を出発点として、因果関係の可能性を検証していくプロセスを整理します。
ステップ① 相関係数で関係性を見つける
まずは出発点。第4章でずっと扱ってきた、散布図と相関係数でデータを観察し、「この2つは何か関係がありそう」と気づきます。
たとえば、ある飲食チェーンで「店舗のSNSフォロワー数」と「月間売上」に強い正の相関が出たとしましょう。これだけだと、まだ何もわかりません。「SNSが売上を伸ばしているのか?」「売れている店だからフォロワーが多いのか?」「両者の裏に共通の原因(立地、店長の力量など)があるのか?」──仮説はいくつも立てられます。
ステップ② 別のデータで再現性を確認
次に、同じパターンが他の場面でも見られるかを確認します。1つのデータで相関が出ただけでは、それはたまたまかもしれません。複数のデータセット、複数の時期、複数の地域で同じ関係性が再現するかを見ます。
- 同じ会社の別の支店でも同じ相関が出るか
- 異なる時期のデータでも同じ関係性があるか
- 競合他社のデータでも同様の傾向か
- 業界全体の調査データではどうか
再現性が確認できないなら、最初に出た相関は偶然の可能性が高い、と判断できます。再現性が確認できれば、「ただの偶然ではなさそうだ」という確信が育ちます。
ステップ③ 第3の変数の可能性を検討
再現性が確認できても、まだ油断は禁物です。前章の相関係数の注意点でも触れたとおり、データに異質なグループが混ざっていると、見かけの相関が出ることがあります。
ここで、層別散布図の出番です。考えられる第3の変数(地域、時期、属性など)で層別して散布図を描き、各グループ内でも同じ相関が出るかを確認します。層別しても消えない相関なら、本物の関係性に近いと判断できます。
ステップ④ そこに「因果かもしれない」と到達する
ここまでクリアして、はじめて「これは因果関係かもしれない」という仮説に到達します。「かもしれない」という言葉が大事です。完全に因果を証明するには、本来はランダム化比較実験などの厳密な方法(A/Bテストなど)が必要ですが、データ分析の現場では「強い疑いがある」レベルまで詰められれば、十分にビジネス的な判断ができます。
プロセスをまとめると
| ステップ | やること | 得られるもの |
|---|---|---|
| ① | 散布図と相関係数で関係性を観察 | 「何か関係がある」という気づき |
| ② | 別のデータで再現性を確認 | 「偶然ではなさそう」という確信 |
| ③ | 第3の変数を疑い、層別で検証 | 「見かけの相関ではない」という判断 |
| ④ | 因果関係の仮説に到達 | 次のアクションへの根拠 |
これらのステップは順序が大事です。最初の相関を見ただけでステップ④に飛ぶと、データに振り回されることになります。ひとつずつ確かめながら進むことが、信頼できるデータ分析の基本姿勢です。
相関は「気づきの入口」、因果は「説明と意思決定の出口」。両者の間には、検証のプロセスがあります。「相関が出た→だから因果」とジャンプしない──この姿勢が、データを正しく扱う第一歩です。
相関見つけて即「因果!」じゃなくて、ちゃんとプロセスを踏むの! ステップを丁寧に踏むからこそ、データ分析の結論に説得力が生まれるんだよ!
4. 都市伝説「おむつとビール」
相関と因果の話で、データ分析の世界で語り継がれている有名なエピソードがあります。それが「おむつとビール」の話です。
エピソードの内容
1990年代、あるアメリカの大手スーパーが、自社の売上データを徹底的に分析した結果、こんな関係を発見したというものです。
「金曜日の夕方、おむつを買う客は、ビールも一緒に買う傾向がある」
その仮説は、「乳幼児がいる父親が、妻に頼まれておむつを買いに来たついでに、自分の楽しみとしてビールも買って帰る」というものでした。スーパーはこのインサイトをもとに、おむつ売り場の近くにビール売り場を配置したところ、両方の売上が伸びた──というオチです。
このエピソードの真偽
実は、このエピソードは都市伝説に近いとされています。1992年にアメリカの大手システム会社の役員が講演で紹介したのが発端で、その後さまざまな尾ひれがついて広まりました。具体的にどこのスーパーで、いつ、どれくらいの効果があったのかは、ハッキリとした記録が残っていません。
とはいえ、このエピソードがデータ分析の世界で愛され続けているのには、理由があります。相関の発見が、新しい仮説と具体的なアクションを生む──このストーリーが、データ分析の魅力を端的に示しているからです。
このエピソードから学べること
おむつとビールの話を、これまで学んできた相関と因果の枠組みで整理してみましょう。
- ステップ①の発見:「おむつとビールが一緒に買われる」という相関を、データ分析で見つけた
- 解釈の仮説:「父親が買い物を任される」という第3の要素(共通の背景)が両者をつないでいる
- 因果のような結論:「おむつを買うからビールも買う」と直接的な因果ではない。両者は同じ買い物のシーンで発生している
- でも実用的:原因がわからなくても、「おむつのそばにビールを置けば売れそう」という判断は十分にできる
これがデータ分析の面白いところで、必ずしも完璧な因果関係を解明できなくても、関係性を活用したアクションは取れるのです。「相関の発見」がビジネスの意思決定の入口になり得る、という良い例なんですね。
都市伝説でも、語り継がれるって実用的な学びがあるからだよね! 「データから意外な発見が生まれる」って希望を、たくさんの分析者にくれる、いいエピソードだと思う!
まとめ ─ そして第4章完了
相関と因果のポイント、整理しておきましょう。
- 相関:2変数が一緒に動く関係。因果:原因と結果の関係。両者は別物
- 疑似相関:相関の裏に第3の変数(共通の原因)が隠れていることがある
- 因果への4ステップ:①相関の発見 → ②再現性の確認 → ③第3の変数の検討 → ④因果の仮説
- 「相関→即因果」のジャンプはデータ分析でもっとも避けるべき誤り
- 相関の発見は、新しい仮説とアクションの入口になる
第4章「2変数データの分析」、ここで完了です。散布図と相関の3パターン、層別散布図、相関係数、その注意点、そして相関と因果の関係まで──2つの変数を扱う道具がひととおり揃いました。1変数データの世界(第3章)から、2つの変数が織りなす関係性の世界(第4章)へと、視野が大きく広がりましたね。
第4章「2変数データの分析」、ここで完了です。 次章からは、いよいよデータ分析の応用領域、「回帰分析」に入っていきます。2変数の関係を、ただ「ある」と確認するだけでなく、具体的な式で表現する段階に進みます。お楽しみに。
第4章おつかれさま! 2変数の世界を一気に駆け抜けたね! 次の第5章では、いよいよ「式で関係を表す」回帰分析に入るよ。データ分析の本格的なステップに入っていくよ!