回帰直線
前回までで、散布図と相関係数を使って2変数の関係をつかみました。今回はその散布図に「いちばん良い1本の直線」を引きます。これが回帰直線 $\hat{y}=a+bx$ です。直線が引ければ、$x$ から $y$ を予測できるようになります。
直線を決めるルールが最小二乗法です。本ページでは導出には立ち入らず、結論の公式だけを提示します。傾き $b=\dfrac{s_{xy}}{s_x^2}=r\dfrac{s_y}{s_x}$、切片 $a=\bar{y}-b\bar{x}$。なぜこの式になるのか(正規方程式の導出)は、本講座の山場として 第5章 5-1 でじっくり扱います。今回は使い方と数値例に集中しましょう。
散布図にスーッと1本、いちばんフィットする直線を引くのが回帰直線だよ。今回はその直線の傾きと切片を、公式にあてはめて出すところまで。「なぜその公式?」の証明は第5章のお楽しみにとっておこう!
1. 回帰直線とは ─ 予測のための1本の直線
2つの量的変数があるとき、片方($x$)からもう片方($y$)を予測したいことがあります。たとえば勉強時間から点数を、気温からアイスの売上を見積もる、といった具合です。このとき、予測のもとになる $x$ を説明変数(または独立変数)、予測したい $y$ を目的変数(または従属変数)と呼びます。
散布図の点に対して、もっともよくフィットする直線を引いたものが回帰直線です。直線が表す $y$ は「実際の値」ではなく「直線による予測値」なので、ハットをつけて $\hat{y}$(ワイ・ハット)と書きます。
$$\hat{y} = a + b x$$ $b$ は直線の傾き(回帰係数)、$a$ は切片です。傾き $b$ は「$x$ が $1$ 増えると $y$ が平均してどれだけ変わるか」を表します。
2. 最小二乗法 ─ 直線を選ぶルール(結論のみ)
直線はいくらでも引けます。そのなかから1本を選ぶには基準が要ります。回帰でいちばんよく使われる基準が最小二乗法(さいしょうにじょうほう、least squares method)です。
残差を二乗して合計する
各データについて、実際の $y_i$ と直線の予測値 $\hat{y}_i$ の差を残差 $e_i = y_i - \hat{y}_i$ といいます。点が直線より上なら残差はプラス、下ならマイナス。残差をそのまま足すと打ち消し合って $0$ になってしまうので、残差を二乗してから合計します。
この「残差二乗和」をできるだけ小さくする $a,\,b$ を選ぶ──これが最小二乗法です。直線から大きく外れた点ほど二乗で重いペナルティを受けるので、結果としてみんなにそこそこ近い直線が選ばれます。
残差二乗和 $\displaystyle\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$ を最小にする $a,\,b$ を求めるのが最小二乗法です。この最小化を実際に解く(微分して連立方程式=正規方程式を立てる)手続きは、本講座の山場として 第5章 5-1 で導出します。本ページではその結論の公式だけを使います。
3. 結論の公式 ─ 傾きと切片
最小二乗法を解くと、傾き $b$ と切片 $a$ は次のように、前回までに学んだ共分散・分散・相関係数・標準偏差だけで書けます。
傾き(回帰係数): $$b = \frac{s_{xy}}{s_x^{2}} = r\,\frac{s_y}{s_x}$$ 切片: $$a = \bar{y} - b\,\bar{x}$$ ここで $s_{xy}$ は共分散、$s_x^2$ は $x$ の分散、$r$ は相関係数、$s_x,\,s_y$ は標準偏差、$\bar{x},\,\bar{y}$ は平均です(いずれも $n-1$ で割る定義で計算してかまいません。傾きでは約分されて消えます)。
傾きの2つの顔
傾き $b$ には2通りの書き方があります。$b=\dfrac{s_{xy}}{s_x^2}$ は「共分散を $x$ の分散で割る」形。一方、$s_{xy}=r\,s_x s_y$ を代入すると $b=\dfrac{r\,s_x s_y}{s_x^2}=r\dfrac{s_y}{s_x}$ となり、「相関係数 × 標準偏差の比」の形になります。どちらも同じ値で、手元にあるデータに合わせて使い分けられます。
この形からわかる大事なことが1つ。傾き $b$ の符号は、共分散 $s_{xy}$(=相関係数 $r$)の符号と同じです。正の相関なら右上がり、負の相関なら右下がりの直線になる、というわけです。
直線は必ず $(\bar{x},\,\bar{y})$ を通る
切片の式 $a=\bar{y}-b\bar{x}$ を移項すると $\bar{y}=a+b\bar{x}$。これは「$x=\bar{x}$ を代入すると $\hat{y}=\bar{y}$ になる」という意味です。
最小二乗法による回帰直線は、必ずデータの重心 $(\bar{x},\,\bar{y})$ を通ります。だから、傾き $b$ さえ求めれば、あとは重心を通るように直線を1本引くだけ。切片 $a$ は、その「重心を通す」ための調整値だと考えるとスッキリします。
回帰直線は、データの「ど真ん中」$(\bar{x},\bar{y})$ をかならず通るよ。だから傾きを出したら、重心にピンを刺してクルッと回す感じ。切片はそのピンの高さを合わせる係数なんだね!
4. 数値例 ─ $a,\,b$ を計算する
前回 1-9 と同じ、5人の「勉強時間 $x$」と「点数 $y$」のデータを使います。すでに計算した値を再掲します。
| 生徒 | A | B | C | D | E | 平均 |
|---|---|---|---|---|---|---|
| $x$(時間) | 1 | 2 | 3 | 4 | 5 | $\bar{x}=3$ |
| $y$(点) | 35 | 55 | 60 | 75 | 80 | $\bar{y}=61$ |
1-9 で求めた値は、共分散 $s_{xy}=27.5$、$x$ の分散 $s_x^2=2.5$、相関係数 $r\approx 0.976$ でした。これらを公式に入れるだけです。
共分散を $x$ の分散で割ります。 $$b = \frac{s_{xy}}{s_x^{2}} = \frac{27.5}{2.5} = 11$$ 「相関係数 × 標準偏差の比」でも確かめてみましょう。$s_x=\sqrt{2.5}\approx 1.581$、$s_y=\sqrt{317.5}\approx 17.819$ なので $$b = r\,\frac{s_y}{s_x} = 0.976 \times \frac{17.819}{1.581} \approx 0.976 \times 11.27 \approx 11$$ どちらでも $b=11$。$x$ が $1$ 時間増えると、点数は平均して $11$ 点上がる、という意味です。
重心 $(\bar{x},\bar{y})=(3,\,61)$ を通すように切片を決めます。 $$a = \bar{y} - b\,\bar{x} = 61 - 11 \times 3 = 61 - 33 = 28$$ よって回帰直線は $$\hat{y} = 28 + 11x$$
試しに $x=\bar{x}=3$ を入れると $\hat{y}=28+11\times 3=61=\bar{y}$。ちゃんと重心を通っていますね。また $x=6$(6時間勉強)と予測すると $\hat{y}=28+11\times 6=94$ 点。観測していない値の見積もりにも使えます。
この回帰直線を散布図に重ねると、次のようになります。5つの点のちょうど真ん中を貫く1本です。
散布図と回帰直線 ─ 直線 $\hat{y}=28+11x$ は重心 $(3,\,61)$ を通る
5. 使うときの注意
回帰直線は便利ですが、使い方に注意点があります。前回 1-10 で学んだ相関の注意点が、そのまま回帰にも当てはまります。
- $x$ と $y$ の役割は対称ではない:$y$ を $x$ で予測する直線と、$x$ を $y$ で予測する直線は別物です。どちらを説明変数にするか先に決めましょう。
- 外挿は慎重に:データの範囲を大きく外れた $x$(たとえば勉強 $20$ 時間で $248$ 点)の予測は、現実離れすることがあります。直線が成り立つのはデータがある範囲が基本です。
- 直線が本当に合うか散布図で確認:山なりの関係に無理やり直線をあてても、よい予測にはなりません。まず散布図で「直線でよさそうか」を見ます。
- 回帰は因果を保証しない:直線が引けても「$x$ が $y$ の原因」とは言えません。これは相関と同じです。
回帰直線の傾き $b=\dfrac{s_{xy}}{s_x^2}=r\dfrac{s_y}{s_x}$ は、これまで積み上げてきた共分散・相関係数・標準偏差の総決算です。第1章で学んだ記述統計の道具が、ここで「予測」という新しい目的のために1つにつながりました。残差二乗和を最小化する正式な導出は、第5章 5-1 で必ず回収します。
まとめ
第1章 1-11、ポイントを整理します。
- 回帰直線:$\hat{y}=a+bx$。説明変数 $x$ から目的変数 $y$ の予測値 $\hat{y}$ を出す直線
- 最小二乗法:残差二乗和 $\sum(y_i-\hat{y}_i)^2$ を最小にする基準。導出は第5章へ伏線
- 傾き:$b=\dfrac{s_{xy}}{s_x^2}=r\dfrac{s_y}{s_x}$。符号は相関係数と同じ
- 切片:$a=\bar{y}-b\bar{x}$。直線は必ず重心 $(\bar{x},\bar{y})$ を通る
- 数値例:勉強時間と点数で $b=11,\ a=28$、$\hat{y}=28+11x$
- 注意:$x,y$ の役割は非対称、外挿は慎重に、直線の適合は散布図で確認、回帰≠因果
これで第1章の2変数パートはひと区切り。次回 1-12 クロス集計表 では、質的変数どうしの関係を表にまとめる方法に移ります。量的データの散布図・相関・回帰に対して、質的データはクロス集計で関係を読む、という対比で押さえましょう。
$b=11,\ a=28$、自分の手でも出せたかな? 共分散を分散で割って傾き、重心を通すように切片。第1章で集めた道具が全部つながった瞬間だよ。証明が気になる人は、第5章 5-1で待ってるね!