第4章 4-2 / 2変数データの分析

層別散布図

このページで学ぶこと

前回は2つの変数の関係として散布図と3つの相関関係を学びました。今回はそこから一歩進んで、もう1つの変数を加えて散布図を見る──層別散布図を扱います。

「層別」(そうべつ)の発想は、第2章2-3のヒストグラムや、第3章3-1の代表値の話でも一度登場しました。データをグループに分けて見ると、全体だけでは見えない真実が浮かび上がる──このアイデアを、散布図に応用するのが今回のテーマです。

1. 層別散布図とは

層別散布図(そうべつさんぷず)は、通常の散布図にもう1つの変数を加えて、点を色や形で塗り分けるグラフです。「もう1つの変数」のことをと呼びます。

3つの変数を1枚の図に

たとえば、ある中学校の生徒について、次の3つの変数を持っているとします。

普通の散布図なら、横軸に身長、縦軸に50m走タイムを取って、点を打つだけです。でも層別散布図なら、ここに性別の情報を加えて、男子は緑の丸、女子はベージュの三角といったように、点を見分けやすく塗り分けます。

なぜ「もう1つの変数」を加えるのか

理由は明快です。変数の組み合わせによっては、データの中に「異なる2つのグループ」が隠れていることがあります。それを見抜くために、層別が役立ちます。

第3章で見た「男女混合のクラスの身長分布」を思い出してください。あれも、全体ヒストグラムだと山が2つあるように見えるのに、男女別に分けるとそれぞれは普通の一山の分布だった、という発見でした。同じ発想を散布図にも応用できる、というのが今回の話です。

POINT

層別散布図は「3つ目の変数を、点の色や形で表現する散布図」です。隠れたグループを見つけたり、グループごとの傾向の違いを見るのに役立ちます。

さえちゃん
さえ

散布図にもう1つの変数を「色」で乗せちゃう発想! 1枚の図で3つの変数をいっぺんに見られるなんて、すごく便利だよね!

2. 層別で見えるもの ─ 全体だと見えない傾向

層別散布図がいちばん威力を発揮するのは、全体で見ると相関が見えにくいのに、層別に見ると明確な相関が浮かび上がるケースです。

例:身長と50m走タイム

先ほどの中学校の例で考えてみましょう。中学2年生100人(男子50人・女子50人)の身長と50m走のタイムを散布図にしたとします。

Excelで作成した男女混合の散布図
Excelで作成した男女混合の散布図

この散布図を眺めると、点が広く散らばっていて、はっきりした傾向は読み取りづらいですね。「身長が高いほど速いような気もするけど、ばらつきが大きい」という、ちょっと曖昧な印象になります。

ところが、同じデータを性別に分けてグラフを出力すると、まったく違う風景が現れます。

Excelで作成した女性の散布図
Excelで作成した女性の散布図
Excelで作成した男性の散布図
Excelで作成した男性の散布図

女子(緑の○)と男子(ミュート色の△)が、それぞれ別の領域に分かれているのが見えます。さらに、女子の中だけ・男子の中だけで見ると、それぞれ「身長が高いほどタイムが速い(=タイムが小さい)」という弱めの正の関係がありそうだ、という観察ができます。

全体だけ見たときは「ぼんやりした関係」だったのが、層別にすることで2つのグループ間の差各グループ内での傾向の両方が読めるようになる──これが層別散布図の威力です。

「相関がないように見える」が実はあるケース

層別散布図のもうひとつの面白さは、全体では相関なしに見えるのに、層別に分けると相関が見えてくるケースです。

たとえば「年齢と病気のリスク」を全体散布図で見て、ぼんやりとした関係しか見えなかったとしましょう。でも、運動習慣の有無で層別すると、運動なしのグループでは強い正の相関が、運動ありのグループでは弱い相関が見えてくる、ということがあります。「もう1つの変数」が、関係性を整理する鍵になるのです。

POINT

散布図でモヤッとした傾向しか見えないとき、「もう1つの変数で分けてみたら、何か見えるかな?」と疑ってみるのがコツです。隠れていた関係性が浮かび上がることがあります。

さえちゃん
さえ

「全体ではぼんやり、でも層別にしたら明確!」って瞬間、データ分析やってて一番おもしろいところなんだよ! 第2章のヒストグラムでも同じパターンがあったね!

3. 層別散布図の使いどころ

層別散布図は、実務でも研究でも頻繁に使われる便利な道具です。具体的な活用シーンを整理しておきます。

USE CASE
  • 身長と体重性別 で層別 → 男女ごとの体格の傾向が見える
  • 勉強時間と成績学年 で層別 → 学年ごとの学習効果の違いが見える
  • 気温とアイス売上店舗の地域 で層別 → 地域差の有無が見える
  • 顧客の年齢と購入金額商品カテゴリ で層別 → カテゴリ別のターゲット層が見える
  • 製品の重量と強度製造ライン で層別 → ライン間の品質差が見える

層に使う変数の選び方

層に使う変数は、「データのなかに性質の違うグループがありそう」と疑えるものを選びます。具体的には次のような変数です。

これらは、ほとんどが質的変数です。層別の発想は、量的変数の関係を見るときに、質的変数を「補助的に」加える──というイメージで覚えておいてください。

4. 層別散布図はExcelで作るのが早い

層別散布図は、SVGや手書きで描くのが大変ですが、Excelなら数クリックで作成できます。基本の手順はこんな感じです。

  1. データを「層」の値ごとに別の列に分ける(例:女子の身長/タイムをC列・D列、男子の身長/タイムをE列・F列)
  2. すべてのデータ範囲を選択
  3. 「挿入」→「散布図」を選ぶ
  4. 系列ごとに自動的に色や形が変わるので、凡例を整える

層別散布図を作れるようになると、データ分析の引き出しが一気に増えます。「全体だけ見て満足せず、もう1つ視点を加える」という習慣が身につくと、ビジネスでも研究でも、データから引き出せる発見がぐっと多くなります。

まとめ

層別散布図のポイントを整理しておきましょう。

データ分析では、ひとつの視点だけで判断せず、「もう1つの軸を加えてみる」という発想が大きな違いを生みます。次回は、相関の強さを数値で表現する相関係数に進みます。視覚で見てきた相関を、いよいよ数字で表現する段階に入っていきましょう。