第4章 4-1 / 2変数データの分析

2つの変数の関係

このページで学ぶこと

いよいよ第4章「2変数データの分析」に入ります。第3章までは1つの変数(1変数)を扱ってきましたが、本章からは2つの変数の関係を見ていきます。

まずは質的変数と量的変数のおさらいから始め、質的変数同士の関係を見るための多重クロス集計表、量的変数同士の関係を見るための散布図、そして散布図から読み取れる3つの相関関係──正の相関、無相関、負の相関──を整理します。最後に練習問題で、自分の頭で関係を予想する練習をしてみましょう。

1. 質的変数と量的変数のおさらい

2つの変数の関係を見ていく前に、変数の種類のおさらいから入りましょう。第1章1-1で詳しく扱った内容ですが、第4章は「変数の種類」によって使う道具が変わってきますので、もう一度整理しておきます。

質的変数

質的変数とは、カテゴリで分類されるデータです。性別(男・女)、血液型(A・B・O・AB)、職業、購入の有無など、「数えられるけど、計算できない」タイプのデータです。

量的変数

量的変数は、数値で測れて計算もできるデータです。身長、体重、テストの点数、売上金額、気温、年齢など、「足したり平均したりできる」タイプのデータです。

2変数の組み合わせは3パターン

2つの変数を組み合わせると、変数の種類によって3パターンができます。それぞれに合った見方があるので、ここで整理しておきます。

変数1 変数2 分析の道具
質的質的クロス集計表(多重クロス集計表)
量的量的散布図
質的量的群別の代表値比較・並列箱ひげ図

本ページでは、上の2つ──質的×質的の多重クロス集計表と、量的×量的の散布図──を中心に扱います。

さえちゃん
さえ

2つの変数を見るとき、まず「どっちの種類か?」を見極めるのがスタートです。質的か量的かで、使う道具が決まるんだよ!

2. 多重クロス集計表 ─ 質的変数同士の関係

第1章1-2で、性別×血液型のようなクロス集計表を学びました。あれは2つの質的変数の関係を見る基本の表でしたね。

ここからもう一歩進んで、3つ以上の質的変数の関係を見たいときに使うのが多重クロス集計表(たじゅうクロスしゅうけいひょう)です。

例:性別 × 年代 × 商品の購入有無

ある通販サイトで、ある商品を購入したかどうかを「性別」と「年代」で分けて集計したいとしましょう。性別と年代を行に、購入の有無を列に並べると、こんな表が作れます。

性別 年代 購入あり 購入なし 合計
男性20代153550
30代222850
40代183250
女性20代282250
30代321850
40代252550

この表を眺めると、いくつか気づくことがあります。

1つの変数だけ見ていたら見えない情報が、2つ・3つと組み合わせることで浮かび上がってきます。これが多重クロス集計表の威力です。

Excelのピボットテーブルが便利

多重クロス集計表は、Excelのピボットテーブルで簡単に作れます。行に「性別」と「年代」をドラッグ、列に「購入の有無」をドラッグするだけ。実務でも頻繁に登場しますので、ピボットテーブルの操作に慣れておくと心強いです。

POINT

多重クロス集計表は「3つ以上の質的変数を同時に集計する表」です。1つだけでは見えない、変数の組み合わせによる傾向を読み取るのに使います。

3. 散布図 ─ 量的変数同士の関係

量的変数を2つ並べて、それらの関係を見たいとき。たとえば「身長と体重」「勉強時間とテストの点数」「気温とアイスの売上」のような関係です。こうした2変数の関係を視覚的に表すのが散布図(さんぷず、scatter plot)です。

散布図のつくり方

散布図は、横軸に1つ目の変数、縦軸に2つ目の変数を取り、各データを「点」として打っていきます。たとえば「Aさんの身長170cm・体重65kg」なら、横軸170、縦軸65の位置に1つ点を打ちます。これを全員分やれば、点の散らばり方から2変数の関係性が見えてきます。

USE CASE
  • 勉強時間とテストの点数
  • 気温とアイスクリームの売上
  • 運動時間と体脂肪率
  • 都道府県別の人口と店舗数
  • 年齢と血圧

散布図はExcelで作るのが早い

散布図はExcelの「挿入」→「散布図」でかんたんに作れます。データを2列に並べて選択、グラフ挿入で散布図を選ぶだけ。本ページの末尾にあるExcel補助資料も、ぜひ活用してください。

さえちゃん
さえ

散布図は2つの量的変数の「関係性」を見るためのグラフです。点の散らばり方から、たくさんのストーリーが読み取れるんだよ!

4. 散布図から読み取れる3つの関係

散布図の点の並び方には、典型的な3つのパターンがあります。それぞれ正の相関無相関負の相関と呼ばれます。順番に見ていきましょう。

正の相関

正の相関は、横軸の値が大きくなると、縦軸の値も大きくなる関係です。点が「右上がり」の傾向を示します。

変数X → 変数Y →

正の相関 ─ Xが増えるとYも増える

EXAMPLE
  • 身長と体重(背が高い人ほど体重が重い傾向)
  • 勉強時間とテストの点数(よく勉強した人ほど点数が高い傾向)
  • 気温とアイスクリームの売上(暑い日ほどアイスがよく売れる)

無相関

無相関は、横軸の値と縦軸の値の間にはっきりした関係が見えない状態です。点がランダムに散らばっていて、右上がりにも右下がりにも見えません。

変数X → 変数Y →

無相関 ─ XとYに関係性が見えない

EXAMPLE
  • 靴のサイズと数学の点数
  • 誕生月と血液型
  • 身長とテストの点数(基本的には関係なし)

負の相関

負の相関は、横軸の値が大きくなると、縦軸の値が小さくなる関係です。点が「右下がり」の傾向を示します。

変数X → 変数Y →

負の相関 ─ Xが増えるとYは減る

EXAMPLE
  • 気温と灯油の販売量(暑くなるほど灯油は売れない)
  • 運動時間と体脂肪率(運動するほど体脂肪は減る傾向)
  • 商品の価格と販売数(高くなるほど売れにくくなる傾向)
POINT

散布図を見るときの基本は、「点の流れがどっち向きか」を確認することです。右上がりなら正の相関、右下がりなら負の相関、ばらばらなら無相関。これだけまずは押さえてください。

相関の「強さ」もある

正の相関・負の相関には、強さの違いもあります。点がきれいな直線に近い形で並んでいれば「強い相関」、ばらつきが大きいけれど傾向はあるなら「弱い相関」と表現します。この強さを数値で表すのが、次回学ぶ相関係数です。今回はまず、点の散らばり具合から「向き」を見極めるところに集中してください。

さえちゃん
さえ

「右上がり、右下がり、ばらばら」の3パターンだけ覚えておけばOK! 散布図を見たら、まず点の流れの向きをぱっと見てね。

5. 練習問題 ─ 相関関係を予想する

散布図を読む練習として、2つの場面を考えてみましょう。それぞれ「正の相関・無相関・負の相関」のどれにあてはまりそうか、予想してみてください。

問題 1 基本 ─ 相関を予想する

中学生100人について、「1日の勉強時間」と「数学のテストの点数」を散布図にしたとします。この2変数の間には、どのような相関関係があると予想されますか?

解答を見る

予想:正の相関

勉強時間が長い生徒ほど、テストの点数は高くなる傾向が考えられます。もちろん、勉強の質や、その生徒の理解度によって個人差はありますので、点はある程度ばらつくはず。でも全体としては「右上がり」の傾向になると予想されます。

これは「強い正の相関」と「弱い正の相関」のどちらになるかは、実際にデータを取ってみないとわかりません。実際のデータで確かめてみるのが、データ分析の楽しさです。

問題 2 標準 ─ 相関を予想する

ある夏の30日間、「日の最高気温」と「ホットコーヒーの売上」を散布図にしたとします。この2変数の間には、どのような相関関係があると予想されますか?

解答を見る

予想:負の相関

気温が高い日ほど、ホットコーヒーは売れにくくなると考えられます。逆に、気温が低めの日ほどホットコーヒーは売れやすいでしょう。

「気温が上がるほど売上が下がる」=「右下がり」=負の相関です。

ちなみに同じ場所で「日の最高気温」と「アイスコーヒー(または冷たい飲み物)の売上」を散布図にすると、今度は正の相関が出るはず。同じ気温という変数でも、組み合わせる相手によって相関が逆になることがあるんですね。

さえちゃん
さえ

2問とも解けたかな? 相関の予想は、データを見る前に「どんな結果になりそうかな?」と考えるクセをつけるのがコツ。予想が当たっても外れても、どっちも学びになるんだよ!

まとめ

第4章のスタートとなる「2つの変数の関係」、ポイントを整理しておきましょう。

散布図と相関の3パターン、これが第4章を通しての土台になります。次回は、相関の「強さ」を数値で表現する相関係数を学びます。視覚で見たものを、数字で表現するステップに進みましょう。