第6章 6-4 / モデル化と機械学習

モデルの統計的評価

このページで学ぶこと

モデルを作ったら、その性能を正しい指標で評価する必要があります。本ページ(6-4)では、分類モデルの評価に使う混同行列と、そこから計算されるAccuracy(正解率)・Precision(適合率)・Recall(再現率)・F値・特異度、モデルの判定基準を変えながら評価するROC曲線とAUC、そして回帰モデルの評価に使うRMSE・MAE・MAPE・決定係数を整理します。

「精度が高い=良いモデル」と単純に言い切れないのがこの分野の面白さであり、試験でも頻出のポイントです。それぞれの指標が「何を測っているか」を意識しながら読み進めてください。

1. 混同行列 ― 分類モデルの成績表

2値分類モデル(たとえば「解約する/しない」を予測するモデル)の性能を評価する出発点になるのが混同行列^※1(正誤分布のクロス表)です。混同行列は、モデルの予測結果と実際の正解を、次の4パターンに分けて集計します。

	実際:陽性(解約する)	実際:陰性(解約しない)
予測:陽性	True Positive(TP)真陽性	False Positive(FP)偽陽性
予測:陰性	False Negative(FN)偽陰性	True Negative(TN)真陰性

混同行列(正誤分布のクロス表)、Accuracy、Precision、Recall、F値、特異度を理解し、精度を評価できることは、DS検定のスキルチェック項目です。この4つの数(TP・FP・FN・TN)から、以降で紹介する各種の評価指標がすべて計算されます。まずはこの表の見方を確実に押さえましょう。

さえ

混同行列はこのあと出てくる指標全部の「元ネタ」だから、TP・FP・FN・TNの位置関係だけは絶対に覚えておいてね。ここが曖昧だと、この先ぜんぶグラつくよ!

2. Accuracy・Precision・Recall・F値・特異度

混同行列の4つの数から、目的に応じたさまざまな評価指標を計算できます。もっとも基本的なのはAccuracy(正解率)で、全体の予測のうち正解した割合(TP+TN を全体で割った値)を示します。しかし、Accuracyだけでは不十分な場面があります。

EXAMPLE ― Accuracyだけでは危険なケース

解約する顧客が全体のわずか2%しかいない場合、「全員『解約しない』と予測する」だけのモデルでもAccuracyは98%になってしまう
これでは「解約しそうな顧客を見つける」という本来の目的に対して、まったく役に立たないモデルになる

このように、正解と不正解の数のバランスが偏っているデータ(不均衡データ)では、Accuracy以外の指標も併用する必要があります。Precision(適合率)^※3は、「陽性と予測したもののうち、実際に陽性だった割合」(TP ÷ (TP+FP))で、誤って陽性と判定してしまう(FP)ことをどれだけ避けられているかを測ります。Recall(再現率)^※4は、「実際に陽性だったもののうち、正しく陽性と予測できた割合」(TP ÷ (TP+FN))で、本来見つけるべき陽性を、どれだけ見逃さずに拾えているかを測ります。

PrecisionとRecallは、一方を高めようとするともう一方が下がりやすいトレードオフの関係にあります。両者のバランスを1つの数値で表す指標がF値(F1スコア)^※5で、PrecisionとRecallの調和平均として計算されます。また、陰性のデータに注目した指標として特異度があり、「実際に陰性だったもののうち、正しく陰性と予測できた割合」(TN ÷ (TN+FP))を示します。

指標	計算の考え方	何を重視する場面か
Accuracy(正解率)	全体のうち正解した割合	陽性/陰性のバランスが取れているデータ
Precision(適合率)	陽性と予測した中で実際に陽性だった割合	誤検知(FP)を避けたい場面(例:迷惑メール判定)
Recall(再現率)	実際の陽性のうち正しく拾えた割合	見逃し(FN)を避けたい場面(例:病気の検査)
F値	PrecisionとRecallの調和平均	両者のバランスを1つの数値で見たい場面
特異度	実際の陰性のうち正しく陰性と判定できた割合	陰性の判定精度を重視する場面

EXAMPLE ― PrecisionとRecallの使い分け

病気の検査では、病気の人を見逃す(FN)ことのリスクが大きいため、Recall(見逃しの少なさ)を重視する
迷惑メールフィルタでは、大事なメールを誤って迷惑メール扱いする(FP)ことのリスクが大きいため、Precision(誤検知の少なさ)を重視する

POINT

「不均衡なデータではAccuracyだけで判断してはいけない」というのは頻出の考え方です。何を見逃すと困るか(Recall重視)、何を誤検知すると困るか(Precision重視)という業務上のリスクに応じて指標を選びましょう。

さえ

「解約する人が2%しかいないデータで、全員『解約しない』って予測しても正解率98%!」って、一見すごそうだけど中身は空っぽだよね。この罠、試験でも実務でも本当によく出るから要注意!

3. ROC曲線とAUC ― 判定基準を変えながら見る評価

分類モデルは通常、内部的には「陽性である確率」を計算し、ある基準値(閾値)を超えたら陽性と判定します。この閾値を変化させたときに、PrecisionやRecallに相当する指標がどう変わるかを1枚のグラフにまとめたものがROC曲線^※2です。縦軸に真陽性率(Recallと同じ)、横軸に偽陽性率(1−特異度)を取り、閾値を動かしながら描いた曲線を表します。

ROC曲線が左上(縦軸1・横軸0)に近いほど、「見逃しが少なく、誤検知も少ない」優れたモデルであることを意味します。この曲線の下側の面積を数値化したものがAUC(Area Under the Curve)で、0.5(ランダムな予測と同じ)から1.0(完璧な予測)の範囲を取ります。ROC曲線、AUCを用いてモデルの精度を評価できることは、DS検定のスキルチェック項目です。

POINT

AUCの魅力は、特定の閾値を1つに決める前の、モデルそのものの識別能力を評価できる点にあります。AUCが高いモデルは、閾値をどこに設定しても比較的安定した性能を発揮しやすいと言えます。

4. 回帰モデルの評価指標 ― RMSE・MAE・MAPE・決定係数

ここまでは分類モデルの評価指標でしたが、売上金額や気温など連続値を予測する回帰モデルには別の評価指標を使います。基本になるのは、実際の値と予測値との「誤差」をどう集計するかという発想です。

MAE(Mean Absolute Error、平均絶対誤差)^※6は、実際の値と予測値の差(誤差)の絶対値を平均したものです。誤差をそのまま(絶対値で)平均するため、直感的にわかりやすい指標です。RMSE(Root Mean Square Error、二乗平均平方根誤差)^※7は、誤差を2乗してから平均し、最後に平方根を取ったものです。2乗する過程で、大きく外れた予測(外れ値的な誤差)がより強くペナルティを受けるという特徴があります。

MAPE(Mean Absolute Percentage Error、平均絶対パーセント誤差)^※8は、誤差を実際の値に対する割合(パーセント)として捉え、その絶対値を平均したものです。「金額」など単位に依存する誤差(MAE・RMSE)と異なり、割合で誤差を示すため、スケール(規模)の異なる複数の予測対象を比較しやすいという利点があります。そして、回帰の当てはまりの良さそのものを見る指標として、6-3で扱った決定係数(R²)も引き続き使われます。RMSE、MAE、MAPE、決定係数といった評価尺度を理解し、精度を評価できることは、DS検定の必須スキルチェック項目です。

指標	計算の考え方	特徴
MAE	誤差の絶対値の平均	直感的でわかりやすい。外れ値の影響は比較的小さい
RMSE	誤差の2乗の平均の平方根	大きな誤差(外れ値)をより強く反映する
MAPE	誤差の割合(%)の絶対値の平均	単位に依存せず、異なる規模のデータ間で比較しやすい
決定係数(R²)	目的変数の変動のうち説明できた割合	0〜1でモデル全体の当てはまりを表す

EXAMPLE ― 指標の使い分け

売上予測モデルで、たまに大きく外す(外れ値的な)予測を強くペナルティしたい場合はRMSEを重視する
店舗Aと店舗Bのように売上規模がまったく異なる複数店舗の予測精度を比較したい場合はMAPEを使う
モデル全体として、どれだけ売上の変動を説明できているかを見たい場合は決定係数を確認する

POINT

RMSEはMAEより大きな誤差に敏感です。「たまに大きく外すと困る業務」ではRMSEを、「誤差の大きさを直感的に把握したい業務」ではMAEを、「規模の異なる対象を比べたい業務」ではMAPEを選ぶ、という使い分けを意識しましょう。

さえ

RMSEとMAEの違いは「2乗するかどうか」だけなんだけど、そのひと工夫で「外れ値への厳しさ」が全然変わるの、おもしろいよね。試験でもよく比較で出るから押さえておこう!

まとめ

本ページ(6-4)では、モデルの統計的評価に使う各種指標を整理しました。最後に振り返っておきましょう。

混同行列 ― TP・FP・FN・TNの4分類が、以降のすべての評価指標の元になる
Accuracy・Precision・Recall・F値・特異度 ― 不均衡データではAccuracyだけに頼らず、業務のリスクに応じた指標を選ぶ
ROC曲線・AUC ― 閾値を変えながら、モデルそのものの識別能力を評価する
RMSE・MAE・MAPE・決定係数 ― 回帰モデルの誤差の性質に応じて評価指標を使い分ける

次のページ(6-5)では、正解ラベルのないデータをグループ分けする「クラスタリング」を扱います。

脚注 ─ 用語解説

混同行列 … 分類モデルの予測結果と実際の正解を、真陽性・偽陽性・偽陰性・真陰性の4パターンに分けて集計した表のこと。↩
ROC曲線 … 分類の閾値を変化させたときの真陽性率と偽陽性率の関係を描いた曲線のこと。曲線の下の面積(AUC)でモデルの識別能力を評価する。↩
Precision(適合率) … 陽性と予測したデータのうち、実際に陽性だった割合のこと。誤検知の少なさを表す指標。↩
Recall(再現率) … 実際に陽性だったデータのうち、正しく陽性と予測できた割合のこと。見逃しの少なさを表す指標。↩
F値(F1スコア) … PrecisionとRecallの調和平均で、両者のバランスを1つの数値にまとめた指標のこと。↩
MAE(平均絶対誤差) … 実際の値と予測値との誤差の絶対値を平均した、回帰モデルの評価指標のこと。↩
RMSE(二乗平均平方根誤差) … 誤差を2乗して平均し、平方根を取った回帰モデルの評価指標のこと。大きな誤差により敏感な性質を持つ。↩
MAPE(平均絶対パーセント誤差) … 誤差を実際の値に対する割合(パーセント)として捉え、その絶対値を平均した回帰モデルの評価指標のこと。規模の異なる予測対象同士を比較しやすい。↩