第1章 1-1 / データの記述と要約

変数の分類

このページで学ぶこと

統計学の旅は、目の前のデータが「どんな種類のものなのか」を見分けるところから始まります。種類がわかると、使えるグラフも、計算してよい統計量も自然に決まってくるからです。このページでは、3級でも触れた質的変数と量的変数離散と連続、そして4つの尺度水準(名義・順序・間隔・比)を、2級向けにもう一段ていねいに整理します。

ここは暗記で乗り切れる単元ですが、丸暗記よりも「なぜその分類になるのか」を腹落ちさせておくほうが、後の章でずっとラクになります。たくさんの具体例と、迷ったときの判定のコツを一緒に見ていきましょう。

さえちゃん
さえ

料理でいうと、ここは「素材の見分け方」だよ。魚なのか野菜なのかで包丁の入れ方が変わるよね。データも同じで、種類を間違えると、そのあとの分析がぜんぶ的外れになっちゃうの。最初が肝心!

1. データは大きく2種類 ─ 質的変数と量的変数

まず、ここでいう変数とは「対象ごとに値が変わりうる項目」のことです。たとえばクラスの名簿なら、氏名・性別・身長・テストの点数……これらがすべて変数です。観測して得られた値そのものをデータと呼びます。

変数は大きく2つに分けられます。カテゴリ(分類)で表されるものと、数量で表されるものです。前者を質的変数(カテゴリカル変数)、後者を量的変数(数量変数)と呼びます。

質的変数

質的変数は、「どのカテゴリに属するか」で対象を分類する変数です。性別、血液型、都道府県名などがこれにあたります。たとえ数字で表されていても、その数字に足し算や平均の意味がなければ質的変数です。背番号やアンケートの選択肢番号がよい例ですね。

EXAMPLE
  • 性別(男・女・その他)
  • 血液型(A・B・O・AB)
  • 都道府県(東京・大阪・…)
  • 満足度のラベル(満足・普通・不満)
  • 背番号、会員番号

量的変数

量的変数は、計算の対象になる数量データです。身長、体重、年齢、売上金額のように、足したり平均をとったりすることに意味がある値を指します。

EXAMPLE
  • 身長(cm)、体重(kg)
  • 年齢(歳)、来店人数(人)
  • 売上金額(円)
  • 気温(℃)、所要時間(分)
POINT

迷ったら「平均をとって意味があるか」で考えてみてください。「血液型の平均」はナンセンスですが、「身長の平均」には意味があります。前者が質的変数、後者が量的変数です。数字で書かれているかどうかは、判定の決め手にはなりません。

2. それぞれをもう一段分ける

2級では、質的・量的の2分類をさらに細かく分けて問われます。質的変数は名義変数順序変数に、量的変数は離散変数連続変数に分かれます。

質的変数:名義変数と順序変数

名義変数は、ただ区別するだけで、カテゴリの間に順序がない変数です。血液型のA・B・O・ABに「上下」はありませんよね。これが名義変数です。

順序変数は、カテゴリに順番の意味がある変数です。アンケートの「満足・普通・不満」や、成績の「松・竹・梅」のように、並びそのものに意味があるものを指します。ただし「満足と普通の差」と「普通と不満の差」が等しい保証はありません。間隔の大きさはあてにできない、というのが順序変数の特徴です。

量的変数:離散変数と連続変数

離散変数は、飛び飛びの値しか取らない変数です。来店人数(1人・2人・3人…)やサイコロの目のように、間の値が存在しないものを指します。1.5人の来店はありえません。

連続変数は、ある区間のなかでどんな値でも取れる変数です。身長は170cmでも170.1cmでも170.15cmでも存在しえます。測定の精度を上げれば、いくらでも細かく刻めるのが連続変数です。

POINT

離散か連続かで迷ったら、「数えるのか、測るのか」数えるものは離散変数、測るものは連続変数です。なお、年齢のように「測れる量を整数で記録している」ものは、本来は連続量を切り捨てたものなので、文脈によって扱いが変わることもあります。

さえちゃん
さえ

「数えるか、測るか」は本当に便利な合言葉だよ。リンゴの個数は数えるから離散、リンゴの重さは測るから連続。同じリンゴでも、何を見るかで変わるのがおもしろいよね!

3. 4つの尺度水準

ここまでの分類を、もう一つの視点で整理したのが尺度水準です。「そのデータにどんな計算を許してよいか」という、情報の豊かさの段階を表します。名義変数は名義尺度、順序変数は順序尺度、そして量的変数は間隔尺度比尺度(比例尺度)に対応します。

尺度水準 区別 順序 差(間隔)
名義尺度 ××× 血液型、性別、電話番号
順序尺度 ×× 満足度(5段階)、成績順位、震度
間隔尺度 × 気温(摂氏)、西暦、知能指数
比尺度 身長、体重、売上金額、絶対温度(K)

表の○が下に進むほど増えていくのがポイントです。名義 → 順序 → 間隔 → 比の順に、許される計算がどんどん増え、データから取り出せる情報も豊かになっていきます。上位の尺度は、下位の尺度ができることをすべて含んでいます。

名義尺度と順序尺度のちがい

どちらも質的変数ですが、順序の有無で分かれます。血液型は区別するだけ(名義尺度)。5段階の満足度は「5の人のほうが満足している」と順番が言える(順序尺度)。ただし順序尺度では、差の大きさまでは比べられません。満足度5と4の差が、2と1の差と同じとは限らないからです。

間隔尺度と比尺度のちがい ─ ここが最大の山場

ここが2級でいちばん問われやすいポイントです。両者の違いは「0(原点)に絶対的な意味があるか」の一点に尽きます。

摂氏温度の0℃は、「温度がない」という意味ではありません。ただの基準点です。だから差を語ることはできても(「昨日より3℃高い」はOK)、比を語ることはできません。「20℃は10℃の2倍暑い」とは言えないのです。これが間隔尺度。等間隔ではあるけれど、原点が便宜的、というのが特徴です。

一方、身長の0cmは「長さがない」という絶対的なゼロを意味します。だから「160cmは80cmの2倍」と言えます。これが比尺度です。私たちが実務で扱う数値の多く──売上、体重、人数、時間など──は比尺度です。

POINT

間隔か比かは「2倍と言えるか」で見分けるとラクです。「2倍」と言えれば比尺度、言えなければ間隔尺度。摂氏温度・西暦・知能指数は「2倍」が言えないので間隔尺度の代表例として狙われます。これらは試験の定番なので、セットで覚えておきましょう。

さえちゃん
さえ

「西暦2000年は西暦1000年の2倍むかし?」って聞かれたら変だよね。年号には絶対的なゼロがないから、これは間隔尺度。逆に「絶対温度(ケルビン)」は0Kが本物のゼロだから比尺度になる、っていうのも面白いポイントだよ!

4. 尺度水準で「使える統計量」が決まる

尺度水準を学ぶ最大のご利益は、どの代表値・統計量を使ってよいかが決まることです。たとえば名義尺度に平均を計算してもナンセンスですが、最頻値なら意味があります。次の章以降で学ぶ統計量が、どの尺度から使えるのかを先取りで一覧にしておきます。

尺度水準 使える代表的な統計量
名義尺度度数、最頻値
順序尺度+ 中央値、四分位数
間隔尺度+ 平均、標準偏差(差をとる計算が可能に)
比尺度+ 変動係数、幾何平均(比をとる計算が可能に)

たとえば中央値 $\tilde{x}$ は「順序が決まれば真ん中が選べる」ので順序尺度から使えますが、平均 $\bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i$ は「足し算と割り算」を必要とするので間隔尺度以上でないと意味を持ちません。さらに、変動係数のように割り算(比)を含む量は、比尺度でないと使えない、というわけです。これらの統計量は次の記事から順に学んでいきます。

5. データセット全体の形による分類

ここまでは「1つ1つの変数」の種類でした。最後に視点を変えて、データセット全体(表)の形による分類も押さえておきましょう。これは「データの集め方」の違いとも言えます。

時系列データは第1章の終盤(1-13・1-14)でくわしく扱います。ここでは「3つの形がある」とだけ押さえておけば十分です。

POINT

見分けのコツは「時間が動くか、対象が複数か」。時間が固定で対象が複数ならクロスセクション、対象が固定で時間が動くなら時系列、両方ならパネルです。

まとめ

第1章 1-1、ポイントを整理します。

次回 1-2 量的データの分布 では、量的変数を度数分布表とヒストグラムで「見える化」し、分布の形を読み取る方法を学びます。今日分けた変数の種類が、さっそく活躍しますよ。

さえちゃん
さえ

分類、おつかれさま! 迷ったときの合言葉は2つ。「平均に意味ある?」と「2倍って言える?」。この2つを唱えれば、たいていの変数はスパッと分類できるよ。次はいよいよグラフで分布を見ていこう!