第5章 5-2 / 回帰直線と予測

最小二乗法

このページで学ぶこと

前回は回帰分析の入り口として、散布図に1本の直線を引くという発想を学びました。今回は、その直線をどんなルールで決めているのか──最小二乗法（さいしょうにじょうほう）を学びます。

最小二乗法というと数式が並んで難しそうですが、考え方そのものはとてもシンプルです。第3章で学んだ分散の「空間で考える」発想を思い出しながら、本質をやさしく整理していきましょう。実際の計算は、ExcelのSLOPE関数とINTERCEPT関数で一発で出せます。

1. 「いちばんいい直線」って何だろう?

前回、散布図に1本の直線を引きました。でも、ここで素朴な疑問が湧いてきます。「数ある直線の中で、なぜあの直線がいちばんいいの?」──別の直線でもよさそうですよね。

たくさんの「ありえた直線」

同じ散布図に対して、いろいろな直線が引けます。

候補の直線はたくさん引ける ─ どれが「いちばんいい」?

点線で示したように、傾きや位置の違う直線が無数に考えられます。私たちは、このなかから「いちばん良い1本」を選びたい。それを判断するルールが必要です。

「良い直線」の基準

直感的に考えてみましょう。良い直線とは──すべての点に、できるだけ近い直線です。点と直線がぴったり重なっていれば、それは完璧。実際にはぴったり重なることはまずないので、「点と直線のズレが、なるべく小さくなる直線」を探すのが目標になります。

この「ズレ」のことを、専門用語で残差（ざんさ、residual）と呼びます。残差を全データで小さくするのが、最小二乗法のゴールです。

さえ

「いちばん良い直線って何?」って素朴に考えるのが大事！　数式の前に、まずは「直線を選ぶ基準」を言葉で押さえようね！

2. 残差 ─ 点と直線のズレ

残差は、各データの「実際のYの値」と「直線が予測するYの値」の差のことです。1つの点について、1つの残差があります。

図でイメージする

残差 ─ 各点と回帰直線の縦方向の距離（赤い破線）。プラス（直線より上）とマイナス（直線より下）の両方が混ざる

赤い破線が残差です。各点について、その点から直線まで真下（または真上）に伸びる、縦方向の距離。これが残差の正体です。

残差の符号

残差はプラスにもマイナスにもなります。

点が直線より上にある → 残差はプラス（実際のY ＞予測のY）
点が直線より下にある → 残差はマイナス（実際のY ＜予測のY）
点が直線の上にある → 残差は0（完全一致）

ここで、第3章の「偏差」を思い出しませんか? 偏差も「実際の値と平均との差」で、プラスにもマイナスにもなりました。残差と偏差は、ものすごく似た発想なんです。

POINT

残差は「点と直線の縦方向の距離」。これを全データについて小さくすることが、最小二乗法のゴールです。

3. なぜ「二乗」するのか? ─ 第3章の発想

最小二乗法という名前のとおり、ここで残差を二乗します。「なぜ単純に残差をそのまま足したり、絶対値を取ったりしないのか?」──第3章3-2でじっくり考えた、あの問いがここで再登場します。

そのまま足すと0になってしまう

第3章で偏差をそのまま全部足すと0になる、という性質を学びました。実は残差も同じ。良い直線を引けば、プラスとマイナスの残差が打ち消し合って、合計はだいたい0になります。これでは「良い直線かどうか」を測れません。

そこで、残差を二乗します。二乗すれば負の値もすべてプラスになり、合計が0にならなくなります。

「面積で考える」発想がここでも効く

第3章で学んだとおり、二乗するのは「散らばりを面積として捉える」こと。残差を二乗するのも同じ発想です。

残差が小さい点（直線にぴったり） → 二乗してもまだ小さい
残差が大きい点（直線から遠い） → 二乗するとずっと大きくなる

「直線から大きく外れた点ほど、ペナルティが大きく効いてくる」ということです。これにより、みんなにそこそこ近い直線を選ぶ仕組みになります。1点だけ大きく外れる直線は、その点の二乗残差で大きく不利になるので、選ばれません。

POINT

二乗するのは、(1) 符号を消すためと、(2) 大きく外れる残差を強くペナルティにするため。第3章の分散・標準偏差と、まったく同じ発想です。

さえ

第3章で学んだ「2乗 = 面積」のイメージ、ここでも使う！　まったく違うテーマに見えて、実は同じ考え方なんだよ！　統計学って、こうやって少しずつ知識がつながっていくんだよ！

4. 最小二乗法 ─ 「二乗の合計を最小に」

ここまでの話をひとつにまとめます。最小二乗法は、次のルールで直線を決める方法です。

RULE

全データの残差を二乗して、その合計がいちばん小さくなるような直線を選ぶ。

名前そのままですね。「最小」「二乗」「法」──二乗の合計を最小にする方法。これが最小二乗法の正体です。考え方そのものは、こんなにシンプルです。

3ステップで全体像を整理

各点について、残差（点と直線のズレ）を計算する
残差を二乗する
二乗した値を全部足して、合計がいちばん小さい直線を選ぶ

具体的にどの直線を選べば二乗の合計が最小になるかは、数学的な計算で求まります。検定の3級では結果として得られる回帰直線を読めればよく、計算過程の数式まで暗記する必要はありません。実務的にはExcelの関数で一発で求まりますし、概念の方が大切です。

POINT

最小二乗法のキーフレーズは「残差の二乗の合計を最小にする」。これを覚えておけば、用語の意味が頭に残りやすくなります。

5. ExcelのSLOPE関数とINTERCEPT関数

最小二乗法の計算は、Excelに任せるのが圧倒的に早いです。回帰直線の傾きと切片を求める専用の関数があります。

SLOPE関数（傾き = 回帰係数）

EXCEL

=SLOPE(目的変数の範囲, 説明変数の範囲)

SLOPE（スロープ）は英語で「傾き」のこと。Yの範囲を先、Xの範囲を後に書くことに注意してください（順番を逆にすると違う値になります）。

INTERCEPT関数（切片）

EXCEL

=INTERCEPT(目的変数の範囲, 説明変数の範囲)

INTERCEPT（インターセプト）は英語で「切片」のこと。こちらも引数の順番はSLOPE関数と同じで、Yの範囲が先、Xの範囲が後です。

具体例

勉強時間（A列）とテスト点数（B列）が20人分（行2〜21）あったとします。空いているセルに次のように入力すれば、回帰直線の式が求まります。

EXCEL

傾き（回帰係数 a）：=SLOPE(B2:B21, A2:A21)
切片 b：=INTERCEPT(B2:B21, A2:A21)

たとえば SLOPE が 8、INTERCEPT が 40 なら、回帰直線は Y = 8X + 40 となる。

この直線の式があれば、新しいXの値を代入してYを予測できます。前回の例で計算したように、3時間勉強した人は 8 × 3 + 40 = 64点 と予測できる、というわけです。

分析ツールやグラフからも求められる

Excelには、ほかにも回帰分析ができる方法があります。

分析ツールアドイン：「データ」タブの「データ分析」から「回帰分析」を選ぶと、傾き・切片・決定係数（次回扱います）まで一気に出ます
散布図の近似曲線：散布図を作ったあとに、点を右クリック →「近似曲線の追加」で、グラフに直線を引きながら式も表示できます

実際の手順は、Excel補助資料に詳しくまとめています。SLOPE関数だけでなく、視覚的に見られる近似曲線の機能もぜひ試してみてください。

さえ

「最小二乗法」って大げさな名前だけど、Excelなら関数2つで一瞬で結果が出る！　考え方を理解しておけば、実務はSLOPEとINTERCEPTで十分なんだよ！

まとめ

最小二乗法のポイント、整理しておきましょう。

残差：各データの「実際のYの値」と「直線が予測するYの値」の差
残差は二乗する理由：(1)プラスとマイナスを打ち消さないため、(2)大きく外れた点を強くペナルティにするため
最小二乗法：残差の二乗の合計を最小にするように、直線を決める方法
第3章の分散と同じ発想：偏差を二乗したのと同じく、残差も二乗で「面積」として扱う
SLOPE関数で傾き（回帰係数）、INTERCEPT関数で切片が求まる

最小二乗法は、回帰分析の「直線をどう選ぶか」の問いに、明確な答えを与えてくれる方法です。これがあるからこそ、回帰直線が「客観的に決まる1本」として信頼できるわけです。次回は、回帰分析にまつわる興味深いエピソード──回帰直線の歴史に触れていきましょう。「回帰」という名前の由来も、そこで明かされます。