層別散布図
前回は2つの変数の関係として散布図と3つの相関関係を学びました。今回はそこから一歩進んで、もう1つの変数を加えて散布図を見る──層別散布図を扱います。
「層別」(そうべつ)の発想は、第2章2-3のヒストグラムや、第3章3-1の代表値の話でも一度登場しました。データをグループに分けて見ると、全体だけでは見えない真実が浮かび上がる──このアイデアを、散布図に応用するのが今回のテーマです。
1. 層別散布図とは
層別散布図(そうべつさんぷず)は、通常の散布図にもう1つの変数を加えて、点を色や形で塗り分けるグラフです。「もう1つの変数」のことを層と呼びます。
3つの変数を1枚の図に
たとえば、ある中学校の生徒について、次の3つの変数を持っているとします。
- 変数X:身長(量的変数)
- 変数Y:50m走のタイム(量的変数)
- 層:性別(質的変数)
普通の散布図なら、横軸に身長、縦軸に50m走タイムを取って、点を打つだけです。でも層別散布図なら、ここに性別の情報を加えて、男子は緑の丸、女子はベージュの三角といったように、点を見分けやすく塗り分けます。
なぜ「もう1つの変数」を加えるのか
理由は明快です。変数の組み合わせによっては、データの中に「異なる2つのグループ」が隠れていることがあります。それを見抜くために、層別が役立ちます。
第3章で見た「男女混合のクラスの身長分布」を思い出してください。あれも、全体ヒストグラムだと山が2つあるように見えるのに、男女別に分けるとそれぞれは普通の一山の分布だった、という発見でした。同じ発想を散布図にも応用できる、というのが今回の話です。
層別散布図は「3つ目の変数を、点の色や形で表現する散布図」です。隠れたグループを見つけたり、グループごとの傾向の違いを見るのに役立ちます。
散布図にもう1つの変数を「色」で乗せちゃう発想! 1枚の図で3つの変数をいっぺんに見られるなんて、すごく便利だよね!
2. 層別で見えるもの ─ 全体だと見えない傾向
層別散布図がいちばん威力を発揮するのは、全体で見ると相関が見えにくいのに、層別に見ると明確な相関が浮かび上がるケースです。
例:身長と50m走タイム
先ほどの中学校の例で考えてみましょう。中学2年生100人(男子50人・女子50人)の身長と50m走のタイムを散布図にしたとします。
この散布図を眺めると、点が広く散らばっていて、はっきりした傾向は読み取りづらいですね。「身長が高いほど速いような気もするけど、ばらつきが大きい」という、ちょっと曖昧な印象になります。
ところが、同じデータを性別に分けてグラフを出力すると、まったく違う風景が現れます。
女子(緑の○)と男子(ミュート色の△)が、それぞれ別の領域に分かれているのが見えます。さらに、女子の中だけ・男子の中だけで見ると、それぞれ「身長が高いほどタイムが速い(=タイムが小さい)」という弱めの正の関係がありそうだ、という観察ができます。
全体だけ見たときは「ぼんやりした関係」だったのが、層別にすることで2つのグループ間の差と各グループ内での傾向の両方が読めるようになる──これが層別散布図の威力です。
「相関がないように見える」が実はあるケース
層別散布図のもうひとつの面白さは、全体では相関なしに見えるのに、層別に分けると相関が見えてくるケースです。
たとえば「年齢と病気のリスク」を全体散布図で見て、ぼんやりとした関係しか見えなかったとしましょう。でも、運動習慣の有無で層別すると、運動なしのグループでは強い正の相関が、運動ありのグループでは弱い相関が見えてくる、ということがあります。「もう1つの変数」が、関係性を整理する鍵になるのです。
散布図でモヤッとした傾向しか見えないとき、「もう1つの変数で分けてみたら、何か見えるかな?」と疑ってみるのがコツです。隠れていた関係性が浮かび上がることがあります。
「全体ではぼんやり、でも層別にしたら明確!」って瞬間、データ分析やってて一番おもしろいところなんだよ! 第2章のヒストグラムでも同じパターンがあったね!
3. 層別散布図の使いどころ
層別散布図は、実務でも研究でも頻繁に使われる便利な道具です。具体的な活用シーンを整理しておきます。
- 身長と体重を 性別 で層別 → 男女ごとの体格の傾向が見える
- 勉強時間と成績を 学年 で層別 → 学年ごとの学習効果の違いが見える
- 気温とアイス売上を 店舗の地域 で層別 → 地域差の有無が見える
- 顧客の年齢と購入金額を 商品カテゴリ で層別 → カテゴリ別のターゲット層が見える
- 製品の重量と強度を 製造ライン で層別 → ライン間の品質差が見える
層に使う変数の選び方
層に使う変数は、「データのなかに性質の違うグループがありそう」と疑えるものを選びます。具体的には次のような変数です。
- 属性:性別、年代、職業、所属グループ
- 分類:地域、店舗、製品カテゴリ、製造ライン
- 状態:運動習慣の有無、契約の有無、リピート購入の有無
- 時期:年・月、季節、施策の前後
これらは、ほとんどが質的変数です。層別の発想は、量的変数の関係を見るときに、質的変数を「補助的に」加える──というイメージで覚えておいてください。
4. 層別散布図はExcelで作るのが早い
層別散布図は、SVGや手書きで描くのが大変ですが、Excelなら数クリックで作成できます。基本の手順はこんな感じです。
- データを「層」の値ごとに別の列に分ける(例:女子の身長/タイムをC列・D列、男子の身長/タイムをE列・F列)
- すべてのデータ範囲を選択
- 「挿入」→「散布図」を選ぶ
- 系列ごとに自動的に色や形が変わるので、凡例を整える
層別散布図を作れるようになると、データ分析の引き出しが一気に増えます。「全体だけ見て満足せず、もう1つ視点を加える」という習慣が身につくと、ビジネスでも研究でも、データから引き出せる発見がぐっと多くなります。
まとめ
層別散布図のポイントを整理しておきましょう。
- 層別散布図:散布図にもう1つの変数(層)を加えて、点を色や形で塗り分けたグラフ
- 層には基本的に質的変数(性別・年代・地域など)を使う
- 全体ではぼんやりした関係でも、層別にすると明確な傾向が浮かび上がることがある
- 層別の発想は、第2章のヒストグラム・第3章の代表値でも登場した共通のアイデア
- Excelで作るのが圧倒的に早い。系列を分けて散布図を作成するだけで完成
データ分析では、ひとつの視点だけで判断せず、「もう1つの軸を加えてみる」という発想が大きな違いを生みます。次回は、相関の強さを数値で表現する相関係数に進みます。視覚で見てきた相関を、いよいよ数字で表現する段階に入っていきましょう。