第4章 4-3 / 2変数データの分析

相関係数

このページで学ぶこと

前回までは、散布図と層別散布図を使って、2つの変数の関係を視覚的にとらえてきました。今回はその関係を1つの数値で表現する道具──相関係数を学びます。

本ページでは、相関係数の計算の流れと、−1から+1の範囲をどう読むかに集中します。実際の計算は、ExcelのCORREL関数で一瞬で出せるので、本ページの末尾にあるExcel補助資料で体験してみてください。

1. 相関係数とは

相関係数(そうかんけいすう、correlation coefficient)は、2つの量的変数の関係の強さと向きを、ひとつの数値で表したものです。記号ではrと書きます。

前回学んだとおり、散布図には正の相関・無相関・負の相関の3パターンがありました。これらの「ばらつき方」「直線への近さ」「向き」を、一気に−1から+1の範囲の数値に変換してくれるのが相関係数です。

視覚から数値へ

散布図を眺めて「強い正の相関だな」と感じるのは、人によってブレがあります。「強い」「やや強い」「弱い」の境目は、見る人次第ですよね。相関係数を使うと、この感覚を数字に置き換えられる──これが今回の主役の役割です。

POINT

相関係数は「2変数の関係を、−1から+1の数字でひと目で示す指標」です。視覚で読み取った相関を、客観的な数値で記録・比較できるようにする道具と覚えてください。

2. 計算の流れ ─ 4つのステップ

相関係数を求める計算は、第3章で学んだ偏差・分散・標準偏差を土台として、新しい概念共分散を加えるだけです。順番に確認していきましょう。

① 偏差(おさらい)

第3章3-2で学んだとおり、偏差は「各データの値 − 平均値」で求めます。各データが平均からどれだけ離れているかを表す値ですね。今回は2つの変数(X・Y)があるので、それぞれに偏差を計算します。

RECAP

変数Xの偏差 = 各Xの値 − Xの平均値
変数Yの偏差 = 各Yの値 − Yの平均値

② 分散(おさらい)

分散は、偏差を2乗して平均したもの。各変数の散らばりの大きさを表します。X・Yそれぞれに分散を求めます。

③ 標準偏差(おさらい)

標準偏差は、分散の平方根。元の単位に戻したばらつきの指標でしたね。これも、X・Yそれぞれで計算します。

──ここまでは、第3章でじっくり学んだ内容のおさらいです。次に新しい概念「共分散」が登場します。

さえちゃん
さえ

偏差・分散・標準偏差は第3章でやったね! 第4章ではこれをXとYの2つの変数それぞれで計算するよ。難しいことは何も増えてないから安心してね!

④ 共分散 ─ 2変数のばらつきの「連動」

ここからが新しいパーツです。共分散(きょうぶんさん、covariance)は、2つの変数のばらつきが、どれくらい連動しているかを表す値です。

考え方はシンプルで、「Xの偏差 × Yの偏差」を全データで計算して、その平均を取るだけ。これが共分散です。

なぜ「偏差の積」を見るのでしょうか。それぞれのデータについて:

つまり、「XとYが同じ方向に動く(正の相関)」と積はプラスに、「逆方向に動く(負の相関)」と積はマイナスになります。これを全データで足して平均すれば、「2変数の動きが連動している度合い」が数値で表せる──これが共分散の発想です。

ただし、共分散には欠点があります。単位やスケールに依存してしまうのです。たとえば「身長(cm)と体重(kg)」と「身長(m)と体重(kg)」では、同じ関係性のはずなのに、共分散の値が変わってしまいます。これでは「強い」「弱い」の判断ができません。

⑤ 相関係数 ─ 共分散をスケール調整

共分散の単位依存の問題を解決するために、共分散を「Xの標準偏差 × Yの標準偏差」で割る──これが相関係数です。

FORMULA

相関係数 r = (偏差Xと偏差Yの積の合計) ÷ (標準偏差X × 標準偏差Y × データ数)

分母分子を整理すると、こう書くこともできます:

r = 共分散 ÷ (標準偏差X × 標準偏差Y)

この調整によって、相関係数は必ず −1から+1の範囲に収まります。単位やスケールに左右されない、「純粋な関係の強さ」を表す指標になるんですね。式の細かい中身は、Excel補助資料で実際に列を埋めながら確認するのが、いちばん腑に落ちます。

さえちゃん
さえ

共分散は「単位がついた連動度」、相関係数は「単位を消した連動度」って覚えるとスッキリ。単位を消したから、どんなデータでも−1〜+1で比較できるんだよ!

3. ExcelのCORREL関数で一発計算

ここまで4つのステップを見てきましたが、安心してください。ExcelにはCORREL関数があり、これを使えば関数1つで相関係数が一瞬で出ます

EXCEL

=CORREL(範囲X, 範囲Y)

たとえば、A列に身長、B列に体重のデータが20人分(A2:A21、B2:B21)あったとします。空いているセルに =CORREL(A2:A21, B2:B21) と入力するだけで、相関係数が表示されます。

検定の問題では、計算過程を理解しているかが問われることがありますが、実務では関数で一発計算が圧倒的に多数派です。計算の流れを「読める」状態にしておきつつ、実際の計算はExcelに任せるのが現実的です。本ページの末尾にあるExcel補助資料では、4ステップを1つずつ列で計算する手順と、CORREL関数の両方を体験できます。

4. 相関係数の値をどう読むか

相関係数の値が出てきたら、それをどう解釈するかです。値の範囲と、相関の強さの目安を整理しておきましょう。

値の範囲

相関係数は必ず −1から+1の範囲に収まります。これがCORRELの大事な性質です。

実際のデータでぴったり+1や−1になることはほとんどありません。0.5や−0.7など、その途中の値が出てくるのが普通です。

相関の強さの目安

相関係数の絶対値(プラスマイナスの符号を取り除いた値)から、相関の強さを判断します。あくまで目安ですが、よく使われる基準は次のとおりです。

|r|の値 相関の強さ
0.0 〜 0.2ほとんど相関なし
0.2 〜 0.4弱い相関
0.4 〜 0.7中程度の相関
0.7 〜 0.9強い相関
0.9 〜 1.0非常に強い相関

この基準は、データの種類や分野によって少し違うこともあります。たとえば社会学の調査では「0.3でも強い相関」とすることもあり、工学系では「0.9でも弱い」とされることがあります。あくまで分野の慣習目的に応じた判断が必要です。

符号は「向き」、絶対値は「強さ」

相関係数を読むときのコツは、「符号」と「絶対値」を分けて見ることです。

たとえば r = −0.85r = +0.85 は、「向きは反対だが、関係の強さは同じ」と読みます。「マイナスだから弱い」のではなく、絶対値が大きければ強い相関です。

POINT

相関係数を読むときは、「符号で向きを、絶対値で強さを」判断します。マイナスは「向きが逆」というだけで、関係性の強さとは別の話です。

さえちゃん
さえ

「負」、マイナスだからって悪いわけじゃない。ここを混同する人がすごく多いから、しっかり覚えておいてね!

まとめ

相関係数のポイントを整理しておきましょう。

相関係数は、視覚で見てきた相関を数字で記録できる強力な道具です。次回は、この相関係数を使うときに気をつけたい注意点──「外れ値の影響」や「線形でない関係」など、相関係数のクセを学びます。便利な道具ほど、使い方には注意が必要です。