相関係数の検定 — 母相関 ρ=0 のt検定
1-9 で計算した相関係数 $r$ は、あくまで手元の標本での連動度です。標本がたまたまそう見えただけで、本当の母集団では無相関(母相関係数 $\rho=0$)かもしれません。そこで「この $r$ は、偶然では説明できないほど大きいか?」を判定するのが相関係数の検定です。
主役は検定統計量 $t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$(自由度 $n-2$ の $t$ 分布)。さらに、これが単回帰の傾き $\beta=0$ の検定とぴったり同じ結論を出すこと、そして 3-9 で学んだ区間推定(Fisher の $z$ 変換)との役割の違いも整理します。検定と推定、似ているようで使いどころが違うんです。
「$r=0.5$ って出たけど、これホントに相関あるの? それともたまたま?」を判定するのが今回。検定統計量は1本の式で、自由度は $n-2$。しかもこれ、回帰の傾きの検定と中身が同じなの。最後にスッキリつながるよ!
1. なぜ相関係数を「検定」するのか
標本から計算した相関係数 $r$ は、母集団の本当の相関 $\rho$(ロー、母相関係数)の推定値にすぎません。データ数が少なければ、本当は無相関でも、偶然 $r$ がそこそこ大きく出ることがあります。たとえば $n=5$ のデータなら、まったく無関係な2変数でも $r=0.5$ くらいは珍しくありません。
そこで仮説検定の枠組みで、次を問います。
帰無仮説 $H_0$:$\rho = 0$(母集団では無相関)
対立仮説 $H_1$:$\rho \ne 0$(母集団でも相関がある。両側検定)
「観測された $r$ は、$\rho=0$ のもとで偶然起こりうる範囲か、それとも偶然では説明できないほど大きいか」を判定するわけです。
2. 検定統計量 ─ $t$ 分布を使う
母相関 $\rho=0$ のもとでは、$r$ を次のように変換した量が、自由度 $n-2$ の $t$ 分布に従うことが知られています。
$$t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}$$ この $t$ は、帰無仮説 $\rho=0$ が正しいとき、自由度 $n-2$ の $t$ 分布に従います。$n$ はデータの組数(ペア数)です。
式の気持ちを読み取ってみましょう。$r$ が0から離れるほど分子が大きくなり、$t$ も大きくなります。また、同じ $r$ でもデータ数 $n$ が多いほど $\sqrt{n-2}$ が効いて $t$ が大きくなる。つまり「相関が強いほど」「データが多いほど」、偶然では説明しづらくなる、という直感どおりの作りです。自由度が $n-2$ なのは、相関係数の計算で2つの平均($\bar{x},\,\bar{y}$)を使ったぶん、自由に動ける情報が2つ減るためと考えると覚えやすいです。
判定の手順は、ほかの $t$ 検定と同じです。
- 有意水準 $\alpha$(ふつう $0.05$)を決める。
- 自由度 $n-2$ の $t$ 分布表から両側の臨界値 $t_{\alpha/2}$ を引く。
- $|t| > t_{\alpha/2}$ なら $H_0$ を棄却(=相関は有意)、そうでなければ棄却しない。$p$ 値で判断してもよい。
3. 数値例
8人について2つの変数 $x,\,y$ を測り、相関係数 $r=0.870$ が得られたとします($n=8$)。この相関は有意水準5%で有意と言えるでしょうか。両側検定で確かめます。
まず検定統計量を計算します。$r=0.870$、$n=8$ なので $r^2 = 0.7569$、$n-2=6$。 $$ \begin{aligned} t &= \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} = \frac{0.870\times\sqrt{6}}{\sqrt{1-0.7569}} \\[2pt] &= \frac{0.870\times 2.449}{\sqrt{0.2431}} = \frac{2.131}{0.4931} \approx 4.32 \end{aligned} $$ 自由度は $n-2 = 6$。$t$ 分布表より、自由度6・両側5%の臨界値は $t_{0.025}(6)\approx 2.447$ です。
$|t| = 4.32 > 2.447$ なので、帰無仮説 $\rho=0$ を棄却します。$p$ 値は約 $0.005$(5%より小さい)。したがって「母相関は0でない=統計的に有意な相関がある」と結論できます。
同じ $r=0.87$ でも、$n$ が小さいと「偶然かも」で有意にならないことがあるよ。検定は $r$ の大きさだけじゃなく、データ数 $n$ もちゃんと効かせて判断してくれるの。だから「$r$ が大きい=有意」とは限らないんだ!
4. 単回帰の傾き $\beta=0$ の検定と同値
ここがこの章の気持ちのよいところです。じつは「母相関 $\rho=0$ の検定」と、5-3 で学んだ「単回帰の傾き $\beta=0$ の検定」は、まったく同じ検定です。検定統計量 $t$ の値も、$p$ 値も、結論も一致します。
理由は直感的です。単回帰の傾きは $\hat{\beta}_1 = \dfrac{s_{xy}}{s_x^2} = r\,\dfrac{s_y}{s_x}$ と書けます(5-1)。標準偏差 $s_x,\,s_y$ は必ず正なので、「傾き $\beta_1$ が0」と「相関 $\rho$ が0」は、まったく同じ状況を指します。$r=0$ ならば傾きも0、傾きが0ならば $r$ も0。だから、どちらを検定しても同じになるのは当然なのです。実際、両者の検定統計量はどちらも自由度 $n-2$ の $t$ 分布を使い、同じ $t$ 値を返します。
先ほどの $n=8$、$r=0.870$ のデータで単回帰を当てはめると、傾き $\hat{\beta}_1 \approx 0.869$、その標準誤差 $\approx 0.201$ から $$t = \frac{\hat{\beta}_1}{\mathrm{SE}(\hat{\beta}_1)} = \frac{0.869}{0.201} \approx 4.32$$ 相関係数の検定で得た $t\approx 4.32$ とぴったり一致します。自由度も同じ $n-2=6$。同じデータなら、相関の検定と傾きの検定はいつでも同じ答えを返すのです。
5. 検定と区間推定(Fisher z)の役割の違い
相関係数については、3-9 で区間推定も学びました。あちらでは Fisher の $z$ 変換を使って、$\rho$ の信頼区間(たとえば「$\rho$ は $0.4$ から $0.9$ の間」)を作りました。検定と区間推定、どちらも $\rho$ を扱いますが、役割が違います。
| 観点 | 相関の検定(本ページ) | 区間推定(3-9) |
|---|---|---|
| 問い | $\rho=0$ と言えるか?(あり/なし) | $\rho$ はどのくらいの範囲か? |
| 使う変換 | $t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$ | Fisher の $z$ 変換 |
| 分布 | 自由度 $n-2$ の $t$ 分布 | ($z$ 変換後に)正規分布 |
| 得られるもの | 有意か否かの判定・$p$ 値 | $\rho$ の信頼区間 |
| 使いどころ | 「相関があると言えるか」を主張したい | 「相関の強さがどの範囲か」を示したい |
なぜ検定は $t$ 分布で、区間推定は $z$ 変換なのか。$\rho=0$ という特別な点のまわりでは $r$ の分布がほぼ対称になり、シンプルな $t$ 統計量で扱えます。一方、$\rho$ が $0$ から離れる(たとえば $0.9$ 付近の信頼区間を作る)と $r$ の分布が大きく歪むため、それを正規分布に近づける工夫が Fisher の $z$ 変換でした。「0かどうかだけ知りたい」なら検定、「強さの範囲まで知りたい」なら区間推定、と使い分けます。
6. 結論と使いどころ
相関係数 $r$ を見たら、その大きさだけで判断せず「データ数 $n$ を踏まえて有意か」を $t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$ で確かめる──これが相関の検定です。少ないデータで出た大きな $r$ は当てにならないことがあり、逆に多いデータなら小さな $r$ でも有意になります。そして、相関の検定は単回帰の傾きの検定と同じ結論を返すので、回帰分析の出力(傾きの $p$ 値)からも相関の有意性が読み取れます。
最後にひとつ注意。検定が有意でも、それは「直線的な相関が偶然でない」ことを示すだけで、相関が強い・因果があることまでは保証しません。$n$ が非常に大きいと、ごく弱い相関($r=0.05$ など)でも有意になります。「有意かどうか(検定)」と「どのくらい強いか($r$ の値・区間推定)」は、必ずセットで見るのが大人の作法です。
まとめ
第5章 5-7、ポイントを整理します。
- 相関の検定:$H_0:\rho=0$ を、$t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$(自由度 $n-2$ の $t$ 分布)で判定
- 直感:$r$ が大きいほど、$n$ が多いほど $t$ は大きく、偶然では説明しづらくなる
- 傾きの検定と同値:$\hat{\beta}_1 = r\,(s_y/s_x)$ なので、$\rho=0$ の検定と単回帰の $\beta_1=0$ の検定は同じ $t$ 値・同じ結論
- 区間推定との違い:検定は「0か否か」を $t$ 分布で、区間推定は「強さの範囲」を Fisher の $z$ 変換で(3-9)
- 注意:有意=強い・因果ありではない。$n$ が大きいと弱い相関も有意になる。値と検定はセットで見る
次回 5-8 1元配置分散分析 では、3つ以上のグループの平均を一度に比べる分散分析(ANOVA)に進みます。今回ちらっと出てきた「変動を分けて、平均平方の比(F比)で判断する」考え方が、いよいよ主役として活躍しますよ。
相関の検定は「$t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$、自由度 $n-2$」の1セットを暗記でOK。しかも回帰の傾きの検定と同じ答えになるって知ってると、出題の意図が見えてくるよ。検定(あり/なし)と推定(範囲)の違いも忘れずにね!