回帰と分類
本ページ(6-3)では、機械学習の中でもっとも基本的で、実務での利用頻度も高い回帰分析を扱います。1つの説明変数で予測する単回帰分析(最小二乗法・回帰係数・標準誤差・決定係数)、複数の説明変数を使う重回帰分析(偏回帰係数・標準偏回帰係数・重相関係数・自由度調整済み決定係数)、そして数値ではなく「YesかNoか」を予測するロジスティック回帰との使い分けを整理します。
作ったモデルの精度をどう評価するかは、次のページ「6-4. モデルの統計的評価」でくわしく扱います。
1. 単回帰分析 ― 1本の直線で関係を説明する
単回帰分析※1とは、1つの説明変数(x)から、1つの目的変数(y)を予測するモデルです。たとえば「広告費(x)」から「売上金額(y)」を予測するような場面で使われます。単回帰分析では、データの散らばりにもっとも当てはまりの良い直線(y = a + bx)を求めます。
この「もっとも当てはまりの良い直線」を求める方法が最小二乗法※4です。各データ点と直線との縦方向のズレ(残差)を2乗して合計した値が、最小になるように直線の傾きと切片を決定します。2乗するのは、プラスのズレとマイナスのズレが打ち消し合わないようにするためです。この直線の傾きにあたる係数bを回帰係数と呼び、「xが1単位増えると、yが平均してどれだけ変化するか」を表します。
- 「広告費(万円)」を説明変数、「売上金額(万円)」を目的変数として単回帰分析を行い、回帰係数が3.0と出た場合、広告費を1万円増やすと売上が平均3万円増える、と解釈できる
- 「店舗の延床面積」から「月間来店客数」を予測する回帰式を作り、出店計画の参考にする
ただし、求めた回帰係数がどれだけ「確からしい」値なのかも重要です。この確からしさの目安になるのが標準誤差※8で、回帰係数の推定値がどれだけばらつきうるかを示します。標準誤差が小さいほど、回帰係数の推定は安定していると解釈できます。
さらに、モデル全体の当てはまりの良さを示す指標が決定係数(R²)※5です。決定係数は0から1の値を取り、1に近いほど「目的変数の変動を、説明変数がよく説明できている」ことを意味します。たとえば決定係数が0.8であれば、「売上のばらつきの80%は、広告費の違いによって説明できる」と解釈します。単回帰分析における最小二乗法、回帰係数、標準誤差、決定係数を理解し、モデルを構築できることは、DS検定の必須スキルチェック項目です。
最小二乗法は「残差の2乗和を最小にする」という1点だけ覚えれば十分です。回帰係数は「傾き」、標準誤差は「係数のブレ幅」、決定係数は「モデル全体の当てはまりの良さ(0〜1)」と、それぞれの役割をセットで覚えましょう。
回帰係数・標準誤差・決定係数、名前が似てて混乱しやすいよね。「係数=傾き」「標準誤差=係数のブレ」「決定係数=モデル全体の出来栄え」って役割で覚えると整理しやすいよ!
2. 重回帰分析 ― 複数の要因を同時に考慮する
現実のビジネスでは、目的変数に影響する要因が1つだけということはまれです。売上には広告費だけでなく、気温や曜日、競合の状況なども関係します。このように複数の説明変数を同時に使って目的変数を予測するのが重回帰分析※2です。
重回帰分析では、それぞれの説明変数に対応する係数を偏回帰係数※6と呼びます。偏回帰係数は「他の説明変数の値を一定に保ったとき、その変数が1単位増えるとyがどれだけ変化するか」を表します。単回帰の回帰係数と違い、他の変数の影響を取り除いた「純粋なその変数の効果」を示す点がポイントです。
ただし、偏回帰係数は説明変数ごとに単位(円、℃、人数など)が異なるため、係数の大きさだけで「どの変数が一番影響力が強いか」を単純比較できません。そこで、各変数を平均0・標準偏差1に標準化してから求めた係数である標準偏回帰係数※7を使うと、単位に依存しない形で影響力の大きさを比較できます。重回帰分析における偏回帰係数と標準偏回帰係数、重相関係数、自由度調整済み決定係数について説明できることは、DS検定のスキルチェック項目です。
| 指標 | 意味 | 使いどころ |
|---|---|---|
| 偏回帰係数 | 他の変数を一定にしたときの、その変数固有の影響量 | 単位付きの実務的な解釈(1万円増えると何個売れるか等) |
| 標準偏回帰係数 | 変数を標準化したうえでの影響量 | 変数間で影響力の大きさを比較する |
| 重相関係数 | 実際のyと、モデルによる予測値との相関の強さ | モデル全体の予測力の目安 |
| 自由度調整済み決定係数 | 説明変数の数によるかさ増しを補正した決定係数 | 変数の数が異なるモデル同士の比較 |
モデル全体の当てはまりを見る指標としては、重相関係数(実際の目的変数の値と、モデルが出した予測値との相関係数)があります。また、決定係数には「説明変数を増やせば増やすほど、それが無意味な変数であっても数値上は上がってしまう」という性質があります。この見かけ上のかさ増しを補正したものが自由度調整済み決定係数で、変数の数が異なる複数のモデルを公平に比較したいときに使われます。
- 「広告費」「気温」「曜日(平日/休日)」の3変数で売上を予測する重回帰モデルを作り、標準偏回帰係数を比べたところ「気温」の影響がもっとも大きいとわかった
- 説明変数を5個から8個に増やしたら決定係数は上がったが、自由度調整済み決定係数はほとんど変わらなかった。これは増やした変数があまり意味を持っていなかったことを示唆する
「決定係数が上がったから良いモデルだ」と即断してはいけません。変数を増やせば決定係数は機械的に上がりやすいため、自由度調整済み決定係数で本当の当てはまりの良さを確認する習慣をつけましょう。
「とりあえず変数を増やせば決定係数が上がる」って罠、試験でも実務でもすごくひっかかりやすいポイントだよ。自由度調整済み決定係数を見るクセ、絶対つけようね!
3. 線形回帰とロジスティック回帰の使い分け
ここまで扱ってきた単回帰・重回帰分析は、線形回帰分析と呼ばれ、目的変数として連続的な数値(売上金額、気温、来店客数など)を予測します。一方、目的変数が「解約する/しない」「不良品である/ない」のような2値のカテゴリである場合には、線形回帰ではなくロジスティック回帰分析※3を使います。
ロジスティック回帰は、直接0か1かを予測するのではなく、「1(たとえば解約する)に分類される確率」を0から1の間の値として出力するモデルです。線形回帰の予測値をそのまま使うと、確率の範囲(0〜1)をはみ出したり、境界がはっきりしなかったりする問題が生じます。ロジスティック回帰では、線形回帰の出力をS字カーブ(シグモイド関数)に通すことで、出力を必ず0〜1の確率として扱えるようにしています。
| 観点 | 線形回帰分析 | ロジスティック回帰分析 |
|---|---|---|
| 予測対象 | 連続的な数値 | 2値(または多クラス)のカテゴリに属する確率 |
| 出力の範囲 | 制限なし | 0〜1(確率) |
| 典型的な用途 | 売上金額、来店客数、気温の予測 | 解約する/しない、不良品か否かの判定 |
線形回帰分析とロジスティック回帰分析のそれぞれが予測する対象の違いを理解し、適切に使い分けられることは、DS検定のスキルチェック項目です。「予測したい目的変数が、連続的な数値なのか、それともカテゴリ(はい/いいえ)なのか」を最初に確認することが、手法選択の第一歩になります。
- 「来月の売上金額はいくらか」を予測したい ― 目的変数が連続値なので線形回帰(重回帰)を使う
- 「この顧客は来月解約するか、しないか」を予測したい ― 目的変数が2値のカテゴリなのでロジスティック回帰を使う
- 「このメールは迷惑メールか、そうでないか」を判定したい ― 目的変数が2値のカテゴリなのでロジスティック回帰を使う
「回帰」という名前がついていますが、ロジスティック回帰は実務上、数値予測(回帰)ではなく分類のタスクに使われる手法です。名前に引きずられて混同しないように注意しましょう。
まとめ
本ページ(6-3)では、回帰分析の基本を扱いました。最後に振り返っておきましょう。
- 単回帰分析 ― 最小二乗法で直線を求め、回帰係数・標準誤差・決定係数でモデルを評価する
- 重回帰分析 ― 偏回帰係数・標準偏回帰係数・重相関係数・自由度調整済み決定係数で複数変数の影響を評価する
- 線形回帰とロジスティック回帰の使い分け ― 目的変数が連続値かカテゴリかで手法を選ぶ
次のページ(6-4)では、作ったモデルの性能をどう数値で評価するか、ROC曲線・AUC・混同行列・RMSEなどの評価指標をくわしく見ていきます。
- 単回帰分析 … 1つの説明変数から1つの目的変数を予測する、直線の当てはめによる回帰分析のこと。↩
- 重回帰分析 … 複数の説明変数を同時に使って、1つの目的変数を予測する回帰分析のこと。↩
- ロジスティック回帰分析 … 目的変数が2値のカテゴリである場合に、ある事象が起こる確率を0〜1の値として予測する手法のこと。↩
- 最小二乗法 … 実際のデータと予測値との差(残差)の2乗和が最小になるように、回帰式のパラメータを求める方法のこと。↩
- 決定係数(R²) … モデル全体の当てはまりの良さを0〜1の値で示す指標のこと。1に近いほど目的変数の変動をよく説明できている。↩
- 偏回帰係数 … 重回帰分析において、他の説明変数の値を一定に保ったときの、その変数固有の影響量を示す係数のこと。↩
- 標準偏回帰係数 … 各説明変数を標準化してから求めた偏回帰係数のこと。単位に依存せず変数間の影響力の大きさを比較できる。↩
- 標準誤差 … 回帰係数などの推定値が、標本によってどれだけばらつきうるかを示す指標のこと。値が小さいほど推定が安定していると解釈できる。↩