量的データの分布
前回 1-1 で分けた量的データを、いよいよ「見える化」していきます。数字がずらっと並んだだけの表からは、データの全体像はなかなか見えてきません。そこで登場するのが度数分布表とヒストグラム、そして幹葉図や累積度数といった道具です。
さらに、できあがった分布の形(対称か、右や左に歪んでいるか、山がいくつあるか)を読み取る目も養います。形が読めると、平均だけでは見えてこないデータの素顔がわかるようになりますよ。
数字の羅列って、眺めてても頭に入ってこないよね。でもグラフにした瞬間、「あ、こういうデータなんだ!」ってパッとわかる。今日はその「グラフ化の魔法」を覚えていこう!
1. 度数分布表 ─ データを階級にまとめる
量的データを要約する第一歩は、値を階級(一定の幅の区間)に区切り、各階級に入るデータの個数を数えることです。この個数を度数、まとめた表を度数分布表と呼びます。
ここでは、ある40人のテスト点数を例に使います。階級幅を10点にして区切ると、次のような表になります。表には、各階級の中央の値である階級値と、全体に占める割合である相対度数も添えておきます。
| 階級(点) | 階級値 | 度数 | 相対度数 |
|---|---|---|---|
| 30以上 40未満 | 35 | 2 | 0.050 |
| 40以上 50未満 | 45 | 3 | 0.075 |
| 50以上 60未満 | 55 | 6 | 0.150 |
| 60以上 70未満 | 65 | 12 | 0.300 |
| 70以上 80未満 | 75 | 9 | 0.225 |
| 80以上 90未満 | 85 | 6 | 0.150 |
| 90以上 100未満 | 95 | 2 | 0.050 |
| 合計 | ― | 40 | 1.000 |
相対度数は「度数 ÷ 総数」で求めます。たとえば60点台は $12 \div 40 = 0.3$ なので、全体の30%がこの階級に集まっているとわかります。相対度数は合計するとちょうど $1$ になるので、データ数の異なる2つの集団を比べたいときに重宝します。
階級数の目安にはスタージェスの公式 $k = 1 + \log_{2} n$ がよく使われます($n$ はデータ数)。ただし絶対の正解はありません。実務では、いくつかの階級幅を試して分布の形がもっとも見やすいものを選びます。階級幅はキリのよい数字(10, 20, 50 など)に丸めるのがコツです。
2. ヒストグラム ─ 分布の形を一目で
度数分布表を柱(長方形)で表したグラフがヒストグラムです。横軸に階級、縦軸に度数(または相対度数)をとり、各階級の度数を柱の高さで表します。さきほどの表をヒストグラムにすると、次のようになります。
棒グラフとの違い
見た目は棒グラフに似ていますが、性格はまったく違います。ヒストグラムの横軸は連続した数値の区間なので、柱と柱の間を空けずにつなげて描きます。これに対し棒グラフの横軸は独立したカテゴリなので、棒を離して描きます。間を空けてしまうと「データのない範囲がある」と誤読されてしまうため、ここはヒストグラムの大切な約束ごとです。
棒グラフは「カテゴリの比較」、ヒストグラムは「分布の形を見る」道具です。横軸が質的変数なら棒グラフ、量的変数(階級)ならヒストグラム、と覚えておきましょう。
柱をくっつけるか離すか、これだけでグラフの意味がガラッと変わるんだよ。「数値の区間=くっつける」「カテゴリ=離す」って、セットで覚えちゃおう!
3. 幹葉図 ─ 値を残したまま分布を見る
幹葉図(かんようず、stem-and-leaf plot)は、ヒストグラムのように分布の形を見せながら、もとの数値もそのまま残せる便利な図です。各数値を「幹(上位の桁)」と「葉(下位の桁)」に分け、幹を縦に並べて、葉を横に書き足していきます。
たとえば $52, 55, 58, 61, 63, 67, 68, 71, 74$ という9個の点数なら、十の位を幹、一の位を葉にして次のように書きます。
5 | 2 5 8
6 | 1 3 7 8
7 | 1 4
「5 | 2 5 8」は $52, 55, 58$ の3個を表します。横に伸びた葉の長さが、その階級の度数(柱の高さ)にあたります。図を90度回せばヒストグラムそっくりですが、数値が読み取れる点が違いますね。
幹葉図はデータ数が数十個くらいまでの小さなデータで威力を発揮します。ヒストグラムでは消えてしまう「実際の値」を保ったまま分布の形が見えるので、手計算で全体像をつかみたいときに便利です。
4. 累積度数と相対累積度数
ある階級までに「合計で何個(何%)のデータが含まれるか」を表すのが累積度数と相対累積度数です。下の階級から度数を順に足し上げていくだけで作れます。さきほどの40人のデータで計算してみましょう。
| 階級(点) | 度数 | 累積度数 | 相対累積度数 |
|---|---|---|---|
| 30以上 40未満 | 2 | 2 | 0.050 |
| 40以上 50未満 | 3 | 5 | 0.125 |
| 50以上 60未満 | 6 | 11 | 0.275 |
| 60以上 70未満 | 12 | 23 | 0.575 |
| 70以上 80未満 | 9 | 32 | 0.800 |
| 80以上 90未満 | 6 | 38 | 0.950 |
| 90以上 100未満 | 2 | 40 | 1.000 |
たとえば「70点未満は何%か」を知りたければ、60点台までの相対累積度数 $0.575$ を見ればよく、約58%とすぐにわかります。相対累積度数は最後にかならず $1$(100%)に達するのが目印です。この「下から積み上げていく」考え方は、後で学ぶ中央値や四分位数を求めるときの土台になります。
5. 分布の形を読む
ヒストグラムの形には、いくつかの典型的なパターンがあります。形を見分けられると、データの素顔がぐっと読みやすくなります。
対称か、歪んでいるか
左右がほぼ釣り合っているのが対称な分布です。身長や測定誤差などは、おおむね左右対称な山型(後の章で学ぶ正規分布に近い形)になります。
一方、片側に裾が長く伸びる分布を歪んだ分布と呼びます。裾が右に長いものを右に歪んだ分布(正の歪み)、裾が左に長いものを左に歪んだ分布(負の歪み)と言います。
年収・貯蓄・住宅価格などの経済データは、右に歪んだ分布になりがちです。多くの人が低〜中くらいの値に集まり、少数の高額な値が右へ長く裾を引くからです。このとき平均は裾に引っぱられて中央値より大きくなります(くわしくは次回 1-3 で扱います)。
山がいくつあるか ─ 単峰と多峰
山(ピーク)が1つだけの分布を単峰性、山が2つ以上ある分布を多峰性と呼びます。とくに山が2つあるものは二峰性と言います。
多峰性が現れたら、性質の違う集団が混ざっているサインかもしれません。たとえば成人男女の身長をまとめて1つのヒストグラムにすると、男性の山と女性の山で二峰性になることがあります。こういうときは、グループごとに分けて見直すと分布がきれいに整理できます。
分布を見るときのチェックリストは3つ。(1) 山はいくつ?(単峰か多峰か)、(2) 左右対称か、どちらに歪んでいるか、(3) 飛び離れた値(外れ値)はないか。この3点を順に見れば、データの第一印象がすばやくつかめます。
まとめ
第1章 1-2、ポイントを整理します。
- 度数分布表:データを階級に区切り、度数・相対度数をまとめた表
- ヒストグラム:度数を柱で表すグラフ。柱はつなげて描く(棒グラフは離す)
- 幹葉図:もとの数値を残したまま分布の形を見せる図。小さなデータ向き
- 累積度数・相対累積度数:下から度数を足し上げる。「○未満は何%」がすぐわかる
- 分布の形:対称/右に歪み(正)/左に歪み(負)、単峰/多峰の3点でチェック
次回 1-3 代表値 では、分布を1つの数値で代表させる平均・中央値・最頻値を学びます。今日見た「分布の歪み」が、3つの代表値の位置関係を決める鍵になりますよ。
分布の形が読めるようになると、ニュースの「平均年収」みたいな数字にも惑わされなくなるよ。「これ、右に歪んでるな。じゃあ平均は実感より高めに出てるはず」って見抜けるようになるからね!