第5章 5-2 / 回帰直線と予測

最小二乗法

このページで学ぶこと

前回は回帰分析の入り口として、散布図に1本の直線を引くという発想を学びました。今回は、その直線をどんなルールで決めているのか──最小二乗法(さいしょうにじょうほう)を学びます。

最小二乗法というと数式が並んで難しそうですが、考え方そのものはとてもシンプルです。第3章で学んだ分散の「空間で考える」発想を思い出しながら、本質をやさしく整理していきましょう。実際の計算は、ExcelのSLOPE関数とINTERCEPT関数で一発で出せます。

1. 「いちばんいい直線」って何だろう?

前回、散布図に1本の直線を引きました。でも、ここで素朴な疑問が湧いてきます。「数ある直線の中で、なぜあの直線がいちばんいいの?」──別の直線でもよさそうですよね。

たくさんの「ありえた直線」

同じ散布図に対して、いろいろな直線が引けます。

説明変数 X → 目的変数 Y →

候補の直線はたくさん引ける ─ どれが「いちばんいい」?

点線で示したように、傾きや位置の違う直線が無数に考えられます。私たちは、このなかから「いちばん良い1本」を選びたい。それを判断するルールが必要です。

「良い直線」の基準

直感的に考えてみましょう。良い直線とは──すべての点に、できるだけ近い直線です。点と直線がぴったり重なっていれば、それは完璧。実際にはぴったり重なることはまずないので、「点と直線のズレが、なるべく小さくなる直線」を探すのが目標になります。

この「ズレ」のことを、専門用語で残差(ざんさ、residual)と呼びます。残差を全データで小さくするのが、最小二乗法のゴールです。

さえちゃん
さえ

「いちばん良い直線って何?」って素朴に考えるのが大事! 数式の前に、まずは「直線を選ぶ基準」を言葉で押さえようね!

2. 残差 ─ 点と直線のズレ

残差は、各データの「実際のYの値」と「直線が予測するYの値」の差のことです。1つの点について、1つの残差があります。

図でイメージする

説明変数 X → 目的変数 Y → 残差

残差 ─ 各点と回帰直線の縦方向の距離(赤い破線)。プラス(直線より上)とマイナス(直線より下)の両方が混ざる

赤い破線が残差です。各点について、その点から直線まで真下(または真上)に伸びる、縦方向の距離。これが残差の正体です。

残差の符号

残差はプラスにもマイナスにもなります。

ここで、第3章の「偏差」を思い出しませんか? 偏差も「実際の値と平均との差」で、プラスにもマイナスにもなりました。残差と偏差は、ものすごく似た発想なんです。

POINT

残差は「点と直線の縦方向の距離」。これを全データについて小さくすることが、最小二乗法のゴールです。

3. なぜ「二乗」するのか? ─ 第3章の発想

最小二乗法という名前のとおり、ここで残差を二乗します。「なぜ単純に残差をそのまま足したり、絶対値を取ったりしないのか?」──第3章3-2でじっくり考えた、あの問いがここで再登場します。

そのまま足すと0になってしまう

第3章で偏差をそのまま全部足すと0になる、という性質を学びました。実は残差も同じ。良い直線を引けば、プラスとマイナスの残差が打ち消し合って、合計はだいたい0になります。これでは「良い直線かどうか」を測れません。

そこで、残差を二乗します。二乗すれば負の値もすべてプラスになり、合計が0にならなくなります。

「面積で考える」発想がここでも効く

第3章で学んだとおり、二乗するのは「散らばりを面積として捉える」こと。残差を二乗するのも同じ発想です。

「直線から大きく外れた点ほど、ペナルティが大きく効いてくる」ということです。これにより、みんなにそこそこ近い直線を選ぶ仕組みになります。1点だけ大きく外れる直線は、その点の二乗残差で大きく不利になるので、選ばれません。

POINT

二乗するのは、(1) 符号を消すためと、(2) 大きく外れる残差を強くペナルティにするため。第3章の分散・標準偏差と、まったく同じ発想です。

さえちゃん
さえ

第3章で学んだ「2乗 = 面積」のイメージ、ここでも使う! まったく違うテーマに見えて、実は同じ考え方なんだよ! 統計学って、こうやって少しずつ知識がつながっていくんだよ!

4. 最小二乗法 ─ 「二乗の合計を最小に」

ここまでの話をひとつにまとめます。最小二乗法は、次のルールで直線を決める方法です。

RULE

全データの残差を二乗して、その合計がいちばん小さくなるような直線を選ぶ。

名前そのままですね。「最小」「二乗」「法」──二乗の合計を最小にする方法。これが最小二乗法の正体です。考え方そのものは、こんなにシンプルです。

3ステップで全体像を整理

  1. 各点について、残差(点と直線のズレ)を計算する
  2. 残差を二乗する
  3. 二乗した値を全部足して、合計がいちばん小さい直線を選ぶ

具体的にどの直線を選べば二乗の合計が最小になるかは、数学的な計算で求まります。検定の3級では結果として得られる回帰直線を読めればよく、計算過程の数式まで暗記する必要はありません。実務的にはExcelの関数で一発で求まりますし、概念の方が大切です。

POINT

最小二乗法のキーフレーズは「残差の二乗の合計を最小にする」。これを覚えておけば、用語の意味が頭に残りやすくなります。

5. ExcelのSLOPE関数とINTERCEPT関数

最小二乗法の計算は、Excelに任せるのが圧倒的に早いです。回帰直線の傾きと切片を求める専用の関数があります。

SLOPE関数(傾き = 回帰係数)

EXCEL

=SLOPE(目的変数の範囲, 説明変数の範囲)

SLOPE(スロープ)は英語で「傾き」のこと。Yの範囲を先、Xの範囲を後に書くことに注意してください(順番を逆にすると違う値になります)。

INTERCEPT関数(切片)

EXCEL

=INTERCEPT(目的変数の範囲, 説明変数の範囲)

INTERCEPT(インターセプト)は英語で「切片」のこと。こちらも引数の順番はSLOPE関数と同じで、Yの範囲が先、Xの範囲が後です。

具体例

勉強時間(A列)とテスト点数(B列)が20人分(行2〜21)あったとします。空いているセルに次のように入力すれば、回帰直線の式が求まります。

EXCEL
  • 傾き(回帰係数 a):=SLOPE(B2:B21, A2:A21)
  • 切片 b:=INTERCEPT(B2:B21, A2:A21)

たとえば SLOPE が 8、INTERCEPT が 40 なら、回帰直線は Y = 8X + 40 となる。

この直線の式があれば、新しいXの値を代入してYを予測できます。前回の例で計算したように、3時間勉強した人は 8 × 3 + 40 = 64点 と予測できる、というわけです。

分析ツールやグラフからも求められる

Excelには、ほかにも回帰分析ができる方法があります。

実際の手順は、Excel補助資料に詳しくまとめています。SLOPE関数だけでなく、視覚的に見られる近似曲線の機能もぜひ試してみてください。

さえちゃん
さえ

「最小二乗法」って大げさな名前だけど、Excelなら関数2つで一瞬で結果が出る! 考え方を理解しておけば、実務はSLOPEとINTERCEPTで十分なんだよ!

まとめ

最小二乗法のポイント、整理しておきましょう。

最小二乗法は、回帰分析の「直線をどう選ぶか」の問いに、明確な答えを与えてくれる方法です。これがあるからこそ、回帰直線が「客観的に決まる1本」として信頼できるわけです。次回は、回帰分析にまつわる興味深いエピソード──回帰直線の歴史に触れていきましょう。「回帰」という名前の由来も、そこで明かされます。