第1章 1-8 / データの記述と要約

質的データの要約

このページで学ぶこと

ここまでは点数や売上のような量的データを扱ってきました。今回の主役は、血液型・職種・好きなブランドのような質的データ(カテゴリのデータ)です。数値の大小では測れないこうしたデータを、どう「要約」して見える形にするかを学びます。

まず度数・相対度数・度数分布表でカテゴリごとに数えてまとめ、つぎに棒グラフ・円グラフ・帯グラフで可視化します。どのグラフが何の比較に向くのか、その用途と注意点を、社員50人のアンケートの数値例とグラフの図でつかんでいきましょう。

さえちゃん
さえ

質的データの要約は、つきつめると「数えて、見える形にする」だけ。むずかしい式はほとんど出てこないよ。でもグラフ選びには意外と落とし穴があるから、用途と注意点をセットで覚えようね!

1. 度数・相対度数・度数分布表

質的データの要約の第一歩は、「それぞれのカテゴリに何件あるか」を数えることです。この件数を度数(frequency)と呼びます。さらに、度数を全体の総数で割った割合を相対度数と呼びます。検定では比率とも言います。

FORMULA

あるカテゴリの度数を $f_i$、全体の総数を $n$ とすると、 $$\text{相対度数} = \frac{f_i}{n}$$ 相対度数をすべて足すと必ず $1$($100\%$)になります:$\displaystyle\sum_{i} \frac{f_i}{n} = 1$。

これらをカテゴリ別にまとめた表が度数分布表です。例として、社員50人に「仕事でいちばんよく使う端末は?」と尋ねた結果をまとめてみます。

端末度数(人)相対度数百分率
スマホ240.4848%
PC120.2424%
タブレット90.1818%
その他50.1010%
合計501.00100%

たとえばスマホは $\dfrac{24}{50}=0.48$ で $48\%$。度数だけだと「24人」が多いのか少ないのか判断しづらいですが、相対度数で「全体の約半数」と言えば規模感がつかめますね。集団の大きさが違う2つのデータを比べたいときは、相対度数で比べるのが鉄則です。

2. 棒グラフ ─ カテゴリ別の数を比べる

度数分布表を棒グラフにすると、どのカテゴリが多くてどれが少ないかが一目でわかります。質的データの可視化で、もっとも基本かつ強力なグラフです。

0 5 10 15 20 25 度数(人) 24 12 9 5 スマホ PC タブレット その他

よく使う端末の棒グラフ(カテゴリ別の度数)

棒グラフを描くときの基本ルールは次のとおりです。

  1. 横軸にカテゴリ、縦軸に度数(または相対度数)をとる
  2. カテゴリ間の棒は離して描く(連続した値ではないことを示すため)
  3. 並び順は度数の多い順、または順序尺度なら意味のある順にする
  4. 「その他」は、内容にかかわらずいちばん右に置く

量的データのヒストグラムと見た目は似ていますが、ヒストグラムは連続した階級なので棒をくっつけて描き、棒グラフはカテゴリ間に連続性がないことを示すために棒を離す、という違いがあります。

POINT

棒グラフの目的は「カテゴリ別の数(量)の比較」。「どれが多くて、どれが少ないか」を直感的に伝えるのに、これ以上シンプルで強いグラフはありません。

さえちゃん
さえ

棒グラフは「数を比べたい」ときの第1選択! 大事なのは棒を離すこと。くっつけて描くとヒストグラム(連続データ)と混同されちゃうから気をつけてね。

3. 円グラフ・帯グラフ ─ 全体に対する割合を見せる

棒グラフが「数の比較」なら、円グラフ帯グラフは「割合(構成比)の可視化」が得意です。同じデータでも、見せ方を変えるとメッセージが変わります。

円グラフ

円グラフは、円全体を $100\%$ とし、各カテゴリの相対度数に応じて扇形に分割します。中心角は相対度数 $\times 360^\circ$ で決まります。たとえばスマホは $0.48\times 360^\circ \approx 173^\circ$ ぶんの扇になります。

スマホ 48% PC 24% タブレット 18% その他 10%

よく使う端末の円グラフ(相対度数を扇形で表現)

円グラフを使うときの注意点です。

帯グラフ

帯グラフは、長方形の帯を $100\%$ として、カテゴリごとに区切ったものです。「$100\%$ 積み上げ棒グラフ」とも呼ばれます。力を発揮するのは、複数グループの構成比を並べて比較する場面です。

営業部 開発部 0% 50% 100% スマホ PC タブレット その他

部署別の端末構成比を並べた帯グラフ(構成比の違いが一目でわかる)

2本の帯を並べると、営業部はスマホ中心、開発部はPC中心、という構成比の違いがひと目で伝わります。同じことを円グラフ2枚でやると比較しづらいので、グループ間の構成比を比べたいなら帯グラフが向いています。

POINT

円グラフ・帯グラフは「全体に対する割合」を見せるグラフ。1集団の構成比なら円グラフ、複数集団の構成比の比較なら帯グラフ。絶対数の比較は棒グラフ──「数か、割合か、その比較か」から逆算してグラフを選びましょう。

4. グラフ選びの用途と注意点

3つのグラフの使い分けを、表に整理しておきます。

グラフ見せるもの向いている場面
棒グラフカテゴリ別の(量)「どれが多い/少ない」の比較
円グラフ1集団の構成比全体に占める割合を見せる
帯グラフ複数集団の構成比グループ間で構成比を比べる

共通して気をつけたいこと

さえちゃん
さえ

グラフは「何を伝えたいか」から選ぶのがコツ。数なら棒、割合なら円、構成比の比較なら帯。3Dや軸のごまかしは、見る人をだましちゃうから卒業しよう! 第1章前半、おつかれさま!

まとめ

第1章 1-8、ポイントを整理します。

次回 1-9 散布図・相関係数・共分散 からは、いよいよ2つの変数の関係に踏み込みます。1つのデータを読む力が、関係を見る力へと進化していきますよ。