可視化から意味を読み取る
第5章の最後となるこのページでは、グラフを「作る」側から「読み取る」側に視点を移します。どれほど適切なチャートを選んでも、そこから意味を読み取れなければ分析は完結しません。ここでは、外れ値を見出すための表現手法と、可視化全般に共通する4つの基本的な読み取りの視点(特異点・相違性・傾向性・関連性)を扱います。
「このグラフから何を読み取ればよいか」という視点を持てるようになると、他人が作ったグラフを見る力も、自分が作るグラフの精度も、大きく向上します。
1. 外れ値を見出すための表現手法
データ分析において、周囲から大きく外れた値である外れ値※1を見つけることは非常に重要です。外れ値は、入力ミスやセンサーの故障といった「ノイズ」であることもあれば、不正利用や設備の異常兆候といった「重要な発見」であることもあります。どちらの場合も、まず気づかなければ話が始まりません。
外れ値を見出すために適切な可視化手法はいくつかあります。もっとも基本的なのは箱ひげ図※2です。四分位数※3にもとづいて「ふつうの範囲」を箱で示し、そこから大きく離れた値を個別の点として描くため、外れ値の有無がひと目で分かります。散布図も、点の集団から離れてポツンと存在する点として外れ値を視覚的に把握できる手法です。ヒストグラムであれば、他のビン(区間)から大きく離れた場所に、ぽつんと低い頻度の柱が立つことで気づけます。
- 社員の残業時間を箱ひげ図にして、突出して残業が多い社員を見つける
- 顧客の購入金額を散布図にプロットし、1件だけ極端に高額な取引がないか確認する
- 気温データのヒストグラムで、他のビンから孤立した異常値(センサー故障の疑い)を見つける
外れ値を見出すには、箱ひげ図・散布図・ヒストグラムなど「ふつうの範囲」を視覚的に示せるグラフが適しています。見つけた外れ値が「ノイズ」なのか「重要な発見」なのかは、そのあと現場に立ち返って確認する必要があります。
外れ値って「消すべきノイズ」だと思われがちだけど、実は一番大事な発見が隠れてることも多いんだよね。まずは可視化でちゃんと「気づける」ようにしておくのが第一歩だよ。
2. 外れ値を見つけたあとにやるべきこと
可視化によって外れ値の「見た目」が分かっても、それだけでは分析は終わりません。見つけた外れ値をどう扱うかは、その値がどこから来たのかによって変わります。まず確認すべきは、その外れ値が入力ミスやセンサーの不具合といった、明らかなデータの誤りではないかという点です。もし誤りであれば、修正するか、分析から除外するのが適切です。
一方で、外れ値が誤りではなく、実際に起きた現象を正しく反映している場合もあります。たとえば、ある月だけ突出して売上が高い店舗があったとして、それが「入力ミス」ではなく「テレビで紹介されたことによる本物の特需」であれば、その外れ値こそが重要な発見です。可視化はあくまで「気づきのきっかけ」であり、気づいたあとに一次情報にあたって背景を確認するという、第1章で学んだ「三現主義」の姿勢がここでも活きてきます。
- ある社員の残業時間だけ極端に長い→ 打刻の記録ミスか、本当に特定プロジェクトで繁忙だったのかを確認する
- ある店舗だけ売上が飛び抜けて高い月がある→ データの二重計上でないかをまず疑い、問題なければ理由を店舗にヒアリングする
- あるセンサーの温度データだけ他と大きくズレている→ センサーの故障を疑い、必要であれば交換・再測定する
外れ値を見つけたら、「データの誤りではないか」をまず確認し、そうでなければ「なぜその値になったのか」を現場や一次情報にあたって確かめましょう。可視化は気づきの入り口であり、判断の根拠そのものではありません。
3. 可視化における4つの基本的な読み取りの視点
グラフから意味を読み取るとき、闇雲に眺めていても発見にはたどり着けません。DS検定では、可視化から意味を読み取るための基本的な視点として、特異点・相違性・傾向性・関連性という4つを挙げることができるとされています。これらは、どんなグラフを見るときにも共通して使える「読み取りのチェックリスト」だと考えてください。
| 視点 | 意味 | グラフでの現れ方の例 |
|---|---|---|
| 特異点 | 周囲から突出した、特別な点や瞬間 | 折れ線グラフに現れる急な山や谷、散布図の外れ値 |
| 相違性 | グループ間・カテゴリ間の違い | 棒グラフでの店舗間の差、帯グラフでの構成比の違い |
| 傾向性 | 時間経過や条件変化にともなう一定方向の動き | 折れ線グラフの右肩上がり・右肩下がり、移動平均線の向き |
| 関連性 | 2つ以上の変数が一緒に変化する様子 | 散布図に現れる右肩上がりの点の並び、ヒートマップの色の偏り |
この4つの視点は、独立して使うだけでなく、組み合わせて使うことでより深い読み取りができます。たとえば月次売上の折れ線グラフを見るとき、まず「傾向性(全体としては右肩上がりか)」を確認し、次に「特異点(急に落ち込んだ月はないか)」を探し、店舗別に色分けして「相違性(好調な店舗と不調な店舗の違い)」を見比べ、最後に広告費のデータと重ねて「関連性(広告費を増やした月に売上も伸びているか)」を確認する、という具合です。
- 特異点:「先月だけ急にクレーム件数が跳ね上がっている。何かあったのでは?」
- 相違性:「同じキャンペーンでも、店舗Aと店舗Bで反応がまったく違う」
- 傾向性:「新規顧客数はここ半年、緩やかに減少し続けている」
- 関連性:「気温が上がる月ほど、アイスの売上も伸びているように見える」
この4つの視点は、そのままグラフから得られた「気づき」を、次のアクションにつなげるための出発点にもなります。特異点や相違性に気づいたら、「なぜそうなっているのか」を一次情報にあたって確かめる。傾向性や関連性が見えたら、それが本当に因果関係と言えるのか、それとも見せかけの相関にすぎないのかを検証する。可視化はゴールではなく、次の分析や意思決定に向けた「気づきの入り口」であることを忘れないようにしましょう。
グラフを前にしたら、「特異点はないか」「相違性はどこにあるか」「傾向性はどちらを向いているか」「関連性は見られるか」の4つを順番にチェックする習慣をつけましょう。これがDS検定でも問われる、可視化における基本的な読み取りの視点です。
特異点・相違性・傾向性・関連性の4つ、ちょっと固い言葉だけど「あれ?」「ここが違う」「こっちに動いてる」「一緒に動いてる」って言い換えるとイメージしやすいよ。この視点があれば、どんなグラフでも読み解けるようになるはず!
まとめ
第5章「データ可視化」の最後として、可視化を「読み取る」側の視点を見てきました。最後に振り返っておきましょう。
- 外れ値を見出す表現手法 ― 箱ひげ図・散布図・ヒストグラムなどを使い、周囲から突出した値に気づけるようにする
- 外れ値を見つけたあとの対応 ― データの誤りか、重要な現象を示す発見かを一次情報にあたって確認する
- 可視化における基本的な視点 ― 特異点・相違性・傾向性・関連性という4つの視点で、グラフから意味を読み取る
これで第5章「データ可視化」はすべて終わりです。可視化の目的の定め方から軸出し、データ加工、基本チャートと高度な表現技法、そして読み取りの視点まで、一連の流れを学んできました。章末の確認問題で、理解を定着させましょう。次の第6章では、いよいよ機械学習の全体像に入っていきます。