第5章 5-7 / 線形モデル分析

相関係数の検定 — 母相関 ρ=0 のt検定

このページで学ぶこと

1-9 で計算した相関係数 $r$ は、あくまで手元の標本での連動度です。標本がたまたまそう見えただけで、本当の母集団では無相関（母相関係数 $\rho=0$）かもしれません。そこで「この $r$ は、偶然では説明できないほど大きいか?」を判定するのが相関係数の検定です。

主役は検定統計量 $t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$（自由度 $n-2$ の $t$ 分布）。さらに、これが単回帰の傾き $\beta=0$ の検定とぴったり同じ結論を出すこと、そして 3-9 で学んだ区間推定（Fisher の $z$ 変換）との役割の違いも整理します。検定と推定、似ているようで使いどころが違うんです。

さえ

「$r=0.5$ って出たけど、これホントに相関あるの? それともたまたま?」を判定するのが今回。検定統計量は1本の式で、自由度は $n-2$。しかもこれ、回帰の傾きの検定と中身が同じなの。最後にスッキリつながるよ！

1. なぜ相関係数を「検定」するのか

標本から計算した相関係数 $r$ は、母集団の本当の相関 $\rho$（ロー、母相関係数）の推定値にすぎません。データ数が少なければ、本当は無相関でも、偶然 $r$ がそこそこ大きく出ることがあります。たとえば $n=5$ のデータなら、まったく無関係な2変数でも $r=0.5$ くらいは珍しくありません。

POINT

そこで仮説検定の枠組みで、次を問います。

帰無仮説 $H_0$：$\rho = 0$（母集団では無相関）
対立仮説 $H_1$：$\rho \ne 0$（母集団でも相関がある。両側検定）

「観測された $r$ は、$\rho=0$ のもとで偶然起こりうる範囲か、それとも偶然では説明できないほど大きいか」を判定するわけです。

2. 検定統計量 ─ $t$ 分布を使う

母相関 $\rho=0$ のもとでは、$r$ を次のように変換した量が、自由度 $n-2$ の $t$ 分布に従うことが知られています。

FORMULA

$$t = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}$$ この $t$ は、帰無仮説 $\rho=0$ が正しいとき、自由度 $n-2$ の $t$ 分布に従います。$n$ はデータの組数（ペア数）です。

式の気持ちを読み取ってみましょう。$r$ が0から離れるほど分子が大きくなり、$t$ も大きくなります。また、同じ $r$ でもデータ数 $n$ が多いほど $\sqrt{n-2}$ が効いて $t$ が大きくなる。つまり「相関が強いほど」「データが多いほど」、偶然では説明しづらくなる、という直感どおりの作りです。自由度が $n-2$ なのは、相関係数の計算で2つの平均（$\bar{x},\,\bar{y}$）を使ったぶん、自由に動ける情報が2つ減るためと考えると覚えやすいです。

POINT

判定の手順は、ほかの $t$ 検定と同じです。

有意水準 $\alpha$（ふつう $0.05$）を決める。
自由度 $n-2$ の $t$ 分布表から両側の臨界値 $t_{\alpha/2}$ を引く。
$|t| > t_{\alpha/2}$ なら $H_0$ を棄却（＝相関は有意）、そうでなければ棄却しない。$p$ 値で判断してもよい。

3. 数値例

8人について2つの変数 $x,\,y$ を測り、相関係数 $r=0.870$ が得られたとします（$n=8$）。この相関は有意水準5%で有意と言えるでしょうか。両側検定で確かめます。

EXAMPLE（相関の有意性検定）

まず検定統計量を計算します。$r=0.870$、$n=8$ なので $r^2 = 0.7569$、$n-2=6$。 $$ \begin{aligned} t &= \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} = \frac{0.870\times\sqrt{6}}{\sqrt{1-0.7569}} \\[2pt] &= \frac{0.870\times 2.449}{\sqrt{0.2431}} = \frac{2.131}{0.4931} \approx 4.32 \end{aligned} $$ 自由度は $n-2 = 6$。$t$ 分布表より、自由度6・両側5%の臨界値は $t_{0.025}(6)\approx 2.447$ です。

$|t| = 4.32 > 2.447$ なので、帰無仮説 $\rho=0$ を棄却します。$p$ 値は約 $0.005$（5%より小さい）。したがって「母相関は0でない＝統計的に有意な相関がある」と結論できます。

さえ

同じ $r=0.87$ でも、$n$ が小さいと「偶然かも」で有意にならないことがあるよ。検定は $r$ の大きさだけじゃなく、データ数 $n$ もちゃんと効かせて判断してくれるの。だから「$r$ が大きい＝有意」とは限らないんだ！

4. 単回帰の傾き $\beta=0$ の検定と同値

ここがこの章の気持ちのよいところです。じつは「母相関 $\rho=0$ の検定」と、5-3 で学んだ「単回帰の傾き $\beta=0$ の検定」は、まったく同じ検定です。検定統計量 $t$ の値も、$p$ 値も、結論も一致します。

POINT

理由は直感的です。単回帰の傾きは $\hat{\beta}_1 = \dfrac{s_{xy}}{s_x^2} = r\,\dfrac{s_y}{s_x}$ と書けます（5-1）。標準偏差 $s_x,\,s_y$ は必ず正なので、「傾き $\beta_1$ が0」と「相関 $\rho$ が0」は、まったく同じ状況を指します。$r=0$ ならば傾きも0、傾きが0ならば $r$ も0。だから、どちらを検定しても同じになるのは当然なのです。実際、両者の検定統計量はどちらも自由度 $n-2$ の $t$ 分布を使い、同じ $t$ 値を返します。

EXAMPLE（傾きの検定でも同じ $t$）

先ほどの $n=8$、$r=0.870$ のデータで単回帰を当てはめると、傾き $\hat{\beta}_1 \approx 0.869$、その標準誤差 $\approx 0.201$ から $$t = \frac{\hat{\beta}_1}{\mathrm{SE}(\hat{\beta}_1)} = \frac{0.869}{0.201} \approx 4.32$$ 相関係数の検定で得た $t\approx 4.32$ とぴったり一致します。自由度も同じ $n-2=6$。同じデータなら、相関の検定と傾きの検定はいつでも同じ答えを返すのです。

5. 検定と区間推定（Fisher z）の役割の違い

相関係数については、3-9 で区間推定も学びました。あちらでは Fisher の $z$ 変換を使って、$\rho$ の信頼区間（たとえば「$\rho$ は $0.4$ から $0.9$ の間」）を作りました。検定と区間推定、どちらも $\rho$ を扱いますが、役割が違います。

観点	相関の検定（本ページ）	区間推定（3-9）
問い	$\rho=0$ と言えるか?（あり/なし）	$\rho$ はどのくらいの範囲か?
使う変換	$t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$	Fisher の $z$ 変換
分布	自由度 $n-2$ の $t$ 分布	（$z$ 変換後に）正規分布
得られるもの	有意か否かの判定・$p$ 値	$\rho$ の信頼区間
使いどころ	「相関があると言えるか」を主張したい	「相関の強さがどの範囲か」を示したい

POINT

なぜ検定は $t$ 分布で、区間推定は $z$ 変換なのか。$\rho=0$ という特別な点のまわりでは $r$ の分布がほぼ対称になり、シンプルな $t$ 統計量で扱えます。一方、$\rho$ が $0$ から離れる（たとえば $0.9$ 付近の信頼区間を作る）と $r$ の分布が大きく歪むため、それを正規分布に近づける工夫が Fisher の $z$ 変換でした。「0かどうかだけ知りたい」なら検定、「強さの範囲まで知りたい」なら区間推定、と使い分けます。

6. 結論と使いどころ

相関係数 $r$ を見たら、その大きさだけで判断せず「データ数 $n$ を踏まえて有意か」を $t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$ で確かめる──これが相関の検定です。少ないデータで出た大きな $r$ は当てにならないことがあり、逆に多いデータなら小さな $r$ でも有意になります。そして、相関の検定は単回帰の傾きの検定と同じ結論を返すので、回帰分析の出力（傾きの $p$ 値）からも相関の有意性が読み取れます。

POINT

最後にひとつ注意。検定が有意でも、それは「直線的な相関が偶然でない」ことを示すだけで、相関が強い・因果があることまでは保証しません。$n$ が非常に大きいと、ごく弱い相関（$r=0.05$ など）でも有意になります。「有意かどうか（検定）」と「どのくらい強いか（$r$ の値・区間推定）」は、必ずセットで見るのが大人の作法です。

まとめ

第5章 5-7、ポイントを整理します。

相関の検定：$H_0:\rho=0$ を、$t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$（自由度 $n-2$ の $t$ 分布）で判定
直感：$r$ が大きいほど、$n$ が多いほど $t$ は大きく、偶然では説明しづらくなる
傾きの検定と同値：$\hat{\beta}_1 = r\,(s_y/s_x)$ なので、$\rho=0$ の検定と単回帰の $\beta_1=0$ の検定は同じ $t$ 値・同じ結論
区間推定との違い：検定は「0か否か」を $t$ 分布で、区間推定は「強さの範囲」を Fisher の $z$ 変換で（3-9）
注意：有意＝強い・因果ありではない。$n$ が大きいと弱い相関も有意になる。値と検定はセットで見る

次回 5-8 1元配置分散分析では、3つ以上のグループの平均を一度に比べる分散分析（ANOVA）に進みます。今回ちらっと出てきた「変動を分けて、平均平方の比（F比）で判断する」考え方が、いよいよ主役として活躍しますよ。

さえ

相関の検定は「$t=\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$、自由度 $n-2$」の1セットを暗記でOK。しかも回帰の傾きの検定と同じ答えになるって知ってると、出題の意図が見えてくるよ。検定（あり/なし）と推定（範囲）の違いも忘れずにね！