相関係数の区間推定
標本から計算した相関係数 $r$ は、母集団の相関係数 $\rho$(ロー)の推定値です。点で推定するだけでなく「$\rho$ はだいたいこのあたり」という信頼区間を作りたい──ところが $r$ には、これまでの平均や比率と違ってそのままでは正規近似が効きにくいというクセがあります。
その難所を解決する道具がフィッシャーのz変換です。$r$ をいったん別の世界(z空間)へ送ってから区間を作り、最後に元へ戻す。この「変換 → 区間 → 逆変換」の3ステップを、なぜそうするのかも含めて、数値例で一緒にたどっていきましょう。$r$ の定義そのものは 1-9 で扱っています。
相関係数 $r$ の区間推定は、平均や比率とちょっと勝手が違うの。$r$ は $-1$〜$+1$ の間に押し込められてるから、分布が左右非対称にゆがんじゃう。そこで登場するのが「フィッシャーのz変換」! ゆがみを伸ばして正規分布に近づける魔法だよ。手順さえ覚えれば怖くない!
1. なぜ $r$ はそのまま扱えないのか
母集団から $n$ 組のデータ $(X_i,\,Y_i)$ を取り、標本相関係数 $r$ を計算したとします。$r$ は母相関係数 $\rho$ の推定値ですが、その標本分布の形に困った性質があります。$\rho$ が $0$ に近いときはほぼ左右対称ですが、$\rho$ が $\pm 1$ に近づくほど分布が大きくゆがむのです。
理由はシンプルで、$r$ は必ず $-1 \le r \le +1$ の範囲に収まるからです。たとえば真の値が $\rho=0.9$ のとき、$r$ は上には $1$ までしか伸びませんが、下には $0.9$ よりかなり小さい値まで散らばれます。「上はつかえて、下は広い」──こうして分布は左右非対称になります。これでは「推定値 $\pm$ 誤差」という対称な区間を素直に作れません。
$\rho$ が $\pm 1$ に近いほど、$r$ の分布は左右非対称にゆがむ
さらに、$r$ の分散も $\rho$ の大きさによって変わってしまいます。母平均の区間推定(3-6)では「標準誤差は $\rho$ によらず一定」という安心感がありましたが、$r$ ではそうはいきません。これらをまとめて解決するのが、次のフィッシャーのz変換です。
2. フィッシャーのz変換
イギリスの統計学者フィッシャーは、$r$ を次の式で別の量 $z$ に変換すると、分布がほぼ正規分布に近づき、しかも分散が $\rho$ にほとんどよらなくなることを示しました。
フィッシャーのz変換:標本相関係数 $r$ を $$z = \frac{1}{2}\ln\frac{1+r}{1-r} = \operatorname{artanh}(r)$$ へ変換します。$\operatorname{artanh}$ は双曲線正接 $\tanh$ の逆関数(逆双曲線正接)で、上の対数の式とまったく同じものです。
この変換のミソは、$-1 \le r \le +1$ という窮屈な区間を $-\infty$ から $+\infty$ までの広々とした直線へ引き伸ばすことにあります。$r$ が $+1$ に近づくと $\dfrac{1+r}{1-r}$ の分母が $0$ に近づき、対数が無限大へ飛ぶ──つまり「上のつかえ」がなくなるのです。壁にぶつかっていた分布が、変換後はのびのびと正規分布の形になります。
変換後の $z$ は、近似的に次の正規分布にしたがいます。 $$z \approx N\!\left(\ \frac{1}{2}\ln\frac{1+\rho}{1-\rho},\ \ \frac{1}{n-3}\ \right)$$ 平均は母相関係数 $\rho$ を同じ式で変換した値、分散は $\dfrac{1}{n-3}$ です。注目すべきは分散が$\rho$ を含まないこと。これでようやく、$\rho$ の値に振り回されずに区間を作れます。
分散が $\dfrac{1}{n-1}$ でも $\dfrac{1}{n}$ でもなく $\dfrac{1}{n-3}$ なのは、近似の精度を高めるためにフィッシャーが調整した結果です。試験では「$z$ の分散は $\dfrac{1}{n-3}$」とそのまま覚えてしまって構いません。標準偏差(標準誤差)は、その平方根 $\dfrac{1}{\sqrt{n-3}}$ になります。
3. 区間を作る手順(直感)
$z$ が正規分布にしたがうとわかれば、あとは 3-6 でやった「正規分布の区間推定」と同じ流れに乗せるだけです。やることは3ステップ。
ステップ1(変換):標本の $r$ を $z = \operatorname{artanh}(r)$ で z空間へ送る。
ステップ2(z空間で区間):$z$ は正規分布なので、おなじみの「推定値 $\pm\ z_{\alpha/2}\times$ 標準誤差」で対称な区間を作る。
ステップ3(逆変換):得られた区間の両端を $r=\tanh(z)$ で元の相関係数の世界へ戻す。
ゆがみのない z空間で区間を作り、最後にだけ元へ戻す。この「いったん安全な場所で計算してから戻る」という発想は、統計でくり返し出てくる定石です。逆変換に使う $\tanh$(双曲線正接)は、z変換の式 $z=\operatorname{artanh}(r)$ を $r$ について解いたもので、次の関係になります。
逆変換(z空間から相関係数の世界へ戻す): $$r = \tanh(z) = \frac{e^{2z}-1}{e^{2z}+1} = \frac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$$ $z$ が $-\infty \sim +\infty$ のどんな値でも、$\tanh(z)$ は必ず $-1 \sim +1$ に収まります。だから戻した区間も自動的に $[-1,\,+1]$ の中に入ります。
区間を作るのは「z空間の中だけ」だよ! $r$ のままで $\pm$ 誤差をやっちゃダメ。ゆがんだ世界で対称区間を作っても、ズレた区間になっちゃう。だから一度 $z$ に変換 → 区間 → $\tanh$ で戻す、の順番を絶対に崩さないでね。
4. z空間での信頼区間(式の整理)
ステップ2を式で書き下します。信頼係数を $1-\alpha$(たとえば $95\%$ なら $\alpha=0.05$)とすると、標準正規分布の上側 $\alpha/2$ 点を $z_{\alpha/2}$($95\%$ なら $1.96$)として、z空間での区間は次のようになります。
$$ \begin{aligned} &z \approx N\!\left(\zeta,\ \frac{1}{n-3}\right) \quad\bigl(\text{ここで } \zeta=\operatorname{artanh}(\rho)\bigr) &&\text{(z変換後の分布)}\\[4pt] &\Rightarrow\ \frac{z-\zeta}{\,1/\sqrt{n-3}\,} \approx N(0,\,1) &&\text{(標準化)}\\[4pt] &\Rightarrow\ P\!\left(-z_{\alpha/2} \le \frac{z-\zeta}{1/\sqrt{n-3}} \le z_{\alpha/2}\right) = 1-\alpha &&\text{(両側 } 1-\alpha \text{ を挟む)}\\[4pt] &\Rightarrow\ z - z_{\alpha/2}\,\frac{1}{\sqrt{n-3}} \ \le\ \zeta\ \le\ z + z_{\alpha/2}\,\frac{1}{\sqrt{n-3}} &&\text{(} \zeta \text{ について解く)} \end{aligned} $$
最後の行が、母数 $\zeta=\operatorname{artanh}(\rho)$ に対する信頼区間です。形は 3-6 の母平均とそっくりで、「推定値 $z$ を中心に、標準誤差 $\dfrac{1}{\sqrt{n-3}}$ の $z_{\alpha/2}$ 倍だけ左右に広げる」だけ。あとはこの両端を $\tanh$ で戻せば、$\rho$ の信頼区間が得られます。
母相関係数 $\rho$ の信頼区間(信頼係数 $1-\alpha$) $$z_L = z - z_{\alpha/2}\,\frac{1}{\sqrt{n-3}}, \qquad z_U = z + z_{\alpha/2}\,\frac{1}{\sqrt{n-3}}$$ として、z空間の区間 $[z_L,\,z_U]$ を逆変換し $$\tanh(z_L) \ \le\ \rho\ \le\ \tanh(z_U)$$
5. 数値例 ─ 手を動かして区間を作る
実際に計算してみましょう。$n=25$ 組のデータから標本相関係数 $r=0.6$ が得られたとします。母相関係数 $\rho$ の $95\%$ 信頼区間を求めます($z_{0.025}=1.96$)。
$r=0.6$ をz変換します。 $$z = \frac{1}{2}\ln\frac{1+0.6}{1-0.6} = \frac{1}{2}\ln\frac{1.6}{0.4} = \frac{1}{2}\ln 4 \approx \frac{1}{2}\times 1.3863 \approx 0.6931$$ ちょうど $\operatorname{artanh}(0.6)=0.6931$ です。
標準誤差は $\dfrac{1}{\sqrt{n-3}}=\dfrac{1}{\sqrt{22}}\approx 0.2132$。これを $1.96$ 倍した幅で $z$ の左右に広げます。 $$z_{\alpha/2}\,\frac{1}{\sqrt{n-3}} = 1.96 \times 0.2132 \approx 0.4179$$ $$z_L = 0.6931 - 0.4179 \approx 0.2753, \qquad z_U = 0.6931 + 0.4179 \approx 1.1110$$
両端を $\tanh$ で相関係数の世界へ戻します。 $$\tanh(0.2753) \approx 0.268, \qquad \tanh(1.1110) \approx 0.804$$ したがって母相関係数 $\rho$ の $95\%$ 信頼区間は $$0.27 \ \le\ \rho\ \le\ 0.80$$ (小数第2位で丸めました。)
区間の中心は $r=0.6$ ですが、戻した区間 $[0.27,\,0.80]$ は中心から見て左に長く・右に短い非対称な区間になっています。点推定値 $0.6$ から下へは $0.33$、上へは $0.20$ ですね。これこそ「z空間では対称、戻すと非対称」の正体です。$r$ のままで対称な区間を作ってしまうと、この非対称さを取りこぼしてしまうのです。
$\rho$ の $95\%$ 信頼区間 $[0.27,\,0.80]$ ─ 点推定 $0.6$ に対して左右非対称
6. 結論と使いどころ
相関係数の区間推定は、平均や比率の区間推定とは一味違いますが、やることを「変換・区間・逆変換」の3ステップに分けてしまえば、中身は 3-6 の正規分布の区間推定そのものです。試験では、z変換の式・分散 $\dfrac{1}{n-3}$・逆変換 $\tanh$ の3点セットを押さえておけば、計算は流れ作業で進みます。
実務での合言葉は「$r$ のまま区間にしない」。$\rho$ の信頼区間が $0$ をまたぐかどうかは、相関が「あるかないか」の判断に直結します。たとえば今回の区間 $[0.27,\,0.80]$ は $0$ を含まないので、「母集団でも正の相関があると言ってよさそう」と読めます。ただし、これは相関の検定(5-7 で扱います)と表裏一体の話で、相関があっても因果があるとは限らない点は 1-10 のとおりです。
まとめ
第3章 3-9、ポイントを整理します。
- $r$ のクセ:$\rho\ne 0$ で標本分布が左右非対称にゆがみ、分散も $\rho$ に依存する。そのままでは正規近似が効きにくい
- z変換:$z=\dfrac{1}{2}\ln\dfrac{1+r}{1-r}=\operatorname{artanh}(r)$。$[-1,1]$ を実数全体に引き伸ばす
- 変換後の分布:$z \approx N\!\left(\operatorname{artanh}(\rho),\ \dfrac{1}{n-3}\right)$。分散は $\rho$ によらず $\dfrac{1}{n-3}$
- 3ステップ:変換 → z空間で「$z\pm z_{\alpha/2}\dfrac{1}{\sqrt{n-3}}$」→ $\tanh$ で逆変換
- 結果は非対称:z空間では対称でも、戻した $\rho$ の区間は左右非対称になる
- 読み方:区間が $0$ を含むかどうかで「相関があると言えるか」を判断できる
次回 3-10 2標本の区間推定 では、2つの集団を比べる区間推定──母平均の差・母分散の比・母比率の差──をまとめて扱います。「差が $0$ を含むか」で2群の違いを読み解く、実務でも頻出のテーマです。
$\rho$ の区間 $[0.27,\,0.80]$、自分の手でも出せたかな? $z=\operatorname{artanh}(r)$ で送って、$\pm 1.96/\sqrt{n-3}$ で広げて、$\tanh$ で戻す。この3ステップが体に染みつけば完璧だよ。次は「2つの集団を比べる」区間推定にいこう!