第1章 1-10 / データの記述と要約

相関の注意点

このページで学ぶこと

前回 1-9 で、相関係数 $r$ という便利な指標を手に入れました。でも便利な道具ほど、使い方を間違えると危険です。今回は $r$ にだまされないための注意点をまとめます。

主役は5つ。第三の変数が作るみかけの相関(擬似相関)と交絡、その犯人探しに使う偏相関係数 $r_{xy\cdot z}$、多変数をまとめて見る相関行列、グループ分けで真相が見える層別散布図(シンプソンのパラドックス)、そして外れ値と非線形の落とし穴。すべてに効く合言葉は「相関は因果ではない、まず散布図を見る」です。

さえちゃん
さえ

相関係数って数字が出ると、つい「関係あり!」「だから原因だ!」って言いたくなるよね。でもそこが落とし穴。今回は「数字にだまされないコツ」を5つ覚えていこう。試験でも超頻出だよ!

1. 相関は因果ではない

いちばん大事な原則から。2つの変数に相関があっても、片方がもう片方の原因とは限りません。「$x$ と $y$ がいっしょに動く」ことと「$x$ が $y$ を引き起こす」ことは、まったく別の話です。

$x$ と $y$ に相関が見られたとき、その背後には少なくとも4つの可能性があります。

相関係数 $r$ は、このどれなのかを区別できません。$r$ が教えてくれるのは「いっしょに動いている」という事実だけ。因果を語るには、観察だけでなく実験デザインなどの工夫が必要です(第3章 3-2 で扱います)。

2. みかけの相関と交絡

上の3番目、第三の変数が両方の原因になっているケースを、みかけの相関(擬似相関、見せかけの相関)といいます。そして、こっそり背後にいてグラフをゆがめる第三の変数 $z$ を交絡変数(こうらくへんすう、confounder)と呼びます。

EXAMPLE(定番の擬似相関)

ある町のデータで、「アイスの売上 $x$」と「水難事故の件数 $y$」に強い正の相関(たとえば $r=0.8$)が見られました。アイスが事故を引き起こしているのでしょうか? もちろん違います。背後には気温 $z$ がいます。気温が高いとアイスも売れるし、海やプールに行く人が増えて事故も増える。$z$ が $x$ と $y$ の両方を押し上げているので、$x$ と $y$ がいっしょに動いて見えるだけなのです。

気温 z アイス売上 x 水難事故 y みかけの相関

交絡 ─ 気温 $z$ が $x$ と $y$ の両方の原因。$x$–$y$ の相関は「みかけ」(破線)

3. 偏相関係数 ─ 第三の変数の影響を取り除く

では、気温 $z$ の影響を取り除いたうえで、アイス売上 $x$ と水難事故 $y$ に本当の関係が残るか調べたい。このときに使うのが偏相関係数(へんそうかんけいすう、partial correlation)$r_{xy\cdot z}$ です。「$z$ をそろえたとき(一定にしたとき)の $x$ と $y$ の相関」と読みます。

FORMULA

$x,\,y,\,z$ それぞれの間の相関係数 $r_{xy},\,r_{xz},\,r_{yz}$ を使って、 $$r_{xy\cdot z} = \frac{r_{xy} - r_{xz}\, r_{yz}}{\sqrt{1 - r_{xz}^{2}}\ \sqrt{1 - r_{yz}^{2}}}$$ 分子で「$z$ を経由して説明できる分 $r_{xz}r_{yz}$」を $r_{xy}$ から引いているのがポイントです。

EXAMPLE(擬似相関を見破る)

さきほどのデータで、相関係数が次のように出たとします。 $$r_{xy}=0.80,\qquad r_{xz}=0.90,\qquad r_{yz}=0.85$$ 気温 $z$ の影響を除いた偏相関係数を計算してみましょう。 $$r_{xy\cdot z} = \frac{0.80 - 0.90 \times 0.85}{\sqrt{1-0.90^2}\ \sqrt{1-0.85^2}} = \frac{0.80 - 0.765}{\sqrt{0.19}\ \sqrt{0.2775}}$$ $$= \frac{0.035}{0.4359 \times 0.5268} \approx \frac{0.035}{0.2296} \approx 0.15$$

もとは $r_{xy}=0.80$ という強い相関でしたが、気温をそろえると $r_{xy\cdot z}\approx 0.15$ まで激減しました。つまり $x$–$y$ の見かけの強い相関は、ほとんどが気温という交絡変数のしわざだった、と数値で示せたわけです。

さえちゃん
さえ

偏相関係数は「気温を一定にしたらどうなる?」を計算で再現する道具だよ。$0.80$ が $0.15$ まで落ちたら、「あ、これ気温のせいだったんだ」ってわかるよね。擬似相関の名探偵なの!

4. 相関行列 ─ たくさんの変数を一望する

変数が3つ以上あるときは、すべてのペアの相関係数を表にまとめると見通しがよくなります。これを相関行列(そうかんぎょうれつ、correlation matrix)といいます。$(i,\,j)$ 成分に「変数 $i$ と変数 $j$ の相関係数」を並べた正方形の表です。

$x$(アイス売上)$y$(水難事故)$z$(気温)
$x$$1$$0.80$$0.90$
$y$$0.80$$1$$0.85$
$z$$0.90$$0.85$$1$

相関行列には、覚えておくと得な性質が2つあります。第一に、対角成分は必ず $1$(自分自身との相関は完全一致)。第二に、対角線をはさんで対称です。$x$ と $y$ の相関も、$y$ と $x$ の相関も同じ値だからですね。表を読むときは、対角線より上(または下)の半分だけ見れば十分です。

この表からも、$z$ が $x$・$y$ の両方と強く相関している($0.90,\,0.85$)ことが一目でわかります。交絡変数があやしいときは、まず相関行列で「両方と仲のいい変数」を探すのが手早いやり方です。

5. 層別散布図とシンプソンのパラドックス

第三の変数の影響を見抜くもう1つの方法が、グループごとに色分けして散布図を描く層別散布図(そうべつさんぷず)です。全体をひとまとめにすると見えない構造が、層(グループ)に分けると浮かび上がることがあります。

ときには、全体で見たときと、層別に見たときで、相関の向きが逆転することすらあります。これがシンプソンのパラドックスです。

変数 x → 変数 y → 全体は右上がり

シンプソンのパラドックス ─ 各グループ内は右下がり(負)なのに、まとめると右上がり(正)に見える

EXAMPLE

図の青いグループと赤いグループは、どちらの中でも $x$ が増えると $y$ は減る(負の相関)です。ところが2つを1つの散布図にまとめると、グループ全体の位置関係のせいで「右上がり(正の相関)」に見えてしまいます。グループ(層)という第三の変数を無視すると、結論が真逆になる──これがシンプソンのパラドックスの怖さです。

6. 外れ値と非線形 ─ 散布図でしか気づけない

外れ値の影響

相関係数は平均と標準偏差を使って計算されるので、外れ値(極端に離れた1点)に弱い性質があります。ほぼ無相関のデータに、右上の遠くへ1点を加えるだけで、$r$ が大きくプラスへジャンプして「強い正の相関がある」ように見えてしまうことがあります。逆に、本当は強い相関があるのに、1点の外れ値で $r$ がぐっと下がることもあります。

非線形の関係

もう1つの落とし穴が非線形(直線的でない)の関係です。相関係数はあくまで「直線的な連動」を測るので、山なり(U字型)のようなはっきりした関係があっても $r\approx 0$ になってしまうことがあります。

変数 x → 変数 y →

非線形 ─ はっきりした山なりの関係があるのに $r \approx 0$

理由はこうです。山なりのデータは、左半分では正の連動($x$ が増えると $y$ も増える)、右半分では負の連動($x$ が増えると $y$ は減る)。両者が打ち消し合って、直線的な連動はほぼゼロ。だから $r$ はほぼ $0$ になります。「$r=0$ だから関係なし」と早合点すると、明らかな関係を見逃します。

POINT

外れ値も非線形も、相関係数の数値だけ見ていては気づけません。けれど散布図を一度描けば、どちらも一目瞭然。だから「$r$ を計算する前に、必ず散布図を描く」が、相関分析の鉄則なのです。

まとめ

第1章 1-10、ポイントを整理します。

次回 1-11 回帰直線 では、散布図に「いちばん良い直線」を1本引く方法を学びます。前回の共分散・相関係数が、その直線の傾きを決める主役として再登場します。

さえちゃん
さえ

「相関は因果じゃない」「まず散布図」──この2つを呪文みたいに唱えておけば、相関のワナにはほぼハマらないよ。偏相関係数も、$0.80$ が $0.15$ になる例で感覚をつかめたかな? 次はいよいよ回帰直線だよ!