第1章 1-1 / データの記述と要約

変数の分類

このページで学ぶこと

統計学の旅は、目の前のデータが「どんな種類のものなのか」を見分けるところから始まります。種類がわかると、使えるグラフも、計算してよい統計量も自然に決まってくるからです。このページでは、3級でも触れた質的変数と量的変数、離散と連続、そして4つの尺度水準（名義・順序・間隔・比）を、2級向けにもう一段ていねいに整理します。

ここは暗記で乗り切れる単元ですが、丸暗記よりも「なぜその分類になるのか」を腹落ちさせておくほうが、後の章でずっとラクになります。たくさんの具体例と、迷ったときの判定のコツを一緒に見ていきましょう。

さえ

料理でいうと、ここは「素材の見分け方」だよ。魚なのか野菜なのかで包丁の入れ方が変わるよね。データも同じで、種類を間違えると、そのあとの分析がぜんぶ的外れになっちゃうの。最初が肝心！

1. データは大きく2種類 ─ 質的変数と量的変数

まず、ここでいう変数とは「対象ごとに値が変わりうる項目」のことです。たとえばクラスの名簿なら、氏名・性別・身長・テストの点数……これらがすべて変数です。観測して得られた値そのものをデータと呼びます。

変数は大きく2つに分けられます。カテゴリ（分類）で表されるものと、数量で表されるものです。前者を質的変数（カテゴリカル変数）、後者を量的変数（数量変数）と呼びます。

質的変数

質的変数は、「どのカテゴリに属するか」で対象を分類する変数です。性別、血液型、都道府県名などがこれにあたります。たとえ数字で表されていても、その数字に足し算や平均の意味がなければ質的変数です。背番号やアンケートの選択肢番号がよい例ですね。

EXAMPLE

性別（男・女・その他）
血液型（A・B・O・AB）
都道府県（東京・大阪・…）
満足度のラベル（満足・普通・不満）
背番号、会員番号

量的変数

量的変数は、計算の対象になる数量データです。身長、体重、年齢、売上金額のように、足したり平均をとったりすることに意味がある値を指します。

EXAMPLE

身長（cm）、体重（kg）
年齢（歳）、来店人数（人）
売上金額（円）
気温（℃）、所要時間（分）

POINT

迷ったら「平均をとって意味があるか」で考えてみてください。「血液型の平均」はナンセンスですが、「身長の平均」には意味があります。前者が質的変数、後者が量的変数です。数字で書かれているかどうかは、判定の決め手にはなりません。

2. それぞれをもう一段分ける

2級では、質的・量的の2分類をさらに細かく分けて問われます。質的変数は名義変数と順序変数に、量的変数は離散変数と連続変数に分かれます。

質的変数：名義変数と順序変数

名義変数は、ただ区別するだけで、カテゴリの間に順序がない変数です。血液型のA・B・O・ABに「上下」はありませんよね。これが名義変数です。

順序変数は、カテゴリに順番の意味がある変数です。アンケートの「満足・普通・不満」や、成績の「松・竹・梅」のように、並びそのものに意味があるものを指します。ただし「満足と普通の差」と「普通と不満の差」が等しい保証はありません。間隔の大きさはあてにできない、というのが順序変数の特徴です。

量的変数：離散変数と連続変数

離散変数は、飛び飛びの値しか取らない変数です。来店人数（1人・2人・3人…）やサイコロの目のように、間の値が存在しないものを指します。1.5人の来店はありえません。

連続変数は、ある区間のなかでどんな値でも取れる変数です。身長は170cmでも170.1cmでも170.15cmでも存在しえます。測定の精度を上げれば、いくらでも細かく刻めるのが連続変数です。

POINT

離散か連続かで迷ったら、「数えるのか、測るのか」。数えるものは離散変数、測るものは連続変数です。なお、年齢のように「測れる量を整数で記録している」ものは、本来は連続量を切り捨てたものなので、文脈によって扱いが変わることもあります。

さえ

「数えるか、測るか」は本当に便利な合言葉だよ。リンゴの個数は数えるから離散、リンゴの重さは測るから連続。同じリンゴでも、何を見るかで変わるのがおもしろいよね！

3. 4つの尺度水準

ここまでの分類を、もう一つの視点で整理したのが尺度水準です。「そのデータにどんな計算を許してよいか」という、情報の豊かさの段階を表します。名義変数は名義尺度、順序変数は順序尺度、そして量的変数は間隔尺度と比尺度（比例尺度）に対応します。

尺度水準	区別	順序	差（間隔）	比	例
名義尺度	○	×	×	×	血液型、性別、電話番号
順序尺度	○	○	×	×	満足度（5段階）、成績順位、震度
間隔尺度	○	○	○	×	気温（摂氏）、西暦、知能指数
比尺度	○	○	○	○	身長、体重、売上金額、絶対温度（K）

表の○が下に進むほど増えていくのがポイントです。名義 → 順序 → 間隔 → 比の順に、許される計算がどんどん増え、データから取り出せる情報も豊かになっていきます。上位の尺度は、下位の尺度ができることをすべて含んでいます。

名義尺度と順序尺度のちがい

どちらも質的変数ですが、順序の有無で分かれます。血液型は区別するだけ（名義尺度）。5段階の満足度は「5の人のほうが満足している」と順番が言える（順序尺度）。ただし順序尺度では、差の大きさまでは比べられません。満足度5と4の差が、2と1の差と同じとは限らないからです。

間隔尺度と比尺度のちがい ─ ここが最大の山場

ここが2級でいちばん問われやすいポイントです。両者の違いは「0（原点）に絶対的な意味があるか」の一点に尽きます。

摂氏温度の0℃は、「温度がない」という意味ではありません。ただの基準点です。だから差を語ることはできても（「昨日より3℃高い」はOK）、比を語ることはできません。「20℃は10℃の2倍暑い」とは言えないのです。これが間隔尺度。等間隔ではあるけれど、原点が便宜的、というのが特徴です。

一方、身長の0cmは「長さがない」という絶対的なゼロを意味します。だから「160cmは80cmの2倍」と言えます。これが比尺度です。私たちが実務で扱う数値の多く──売上、体重、人数、時間など──は比尺度です。

POINT

間隔か比かは「2倍と言えるか」で見分けるとラクです。「2倍」と言えれば比尺度、言えなければ間隔尺度。摂氏温度・西暦・知能指数は「2倍」が言えないので間隔尺度の代表例として狙われます。これらは試験の定番なので、セットで覚えておきましょう。

さえ

「西暦2000年は西暦1000年の2倍むかし？」って聞かれたら変だよね。年号には絶対的なゼロがないから、これは間隔尺度。逆に「絶対温度（ケルビン）」は0Kが本物のゼロだから比尺度になる、っていうのも面白いポイントだよ！

4. 尺度水準で「使える統計量」が決まる

尺度水準を学ぶ最大のご利益は、どの代表値・統計量を使ってよいかが決まることです。たとえば名義尺度に平均を計算してもナンセンスですが、最頻値なら意味があります。次の章以降で学ぶ統計量が、どの尺度から使えるのかを先取りで一覧にしておきます。

尺度水準	使える代表的な統計量
名義尺度	度数、最頻値
順序尺度	＋中央値、四分位数
間隔尺度	＋平均、標準偏差（差をとる計算が可能に）
比尺度	＋変動係数、幾何平均（比をとる計算が可能に）

たとえば中央値 $\tilde{x}$ は「順序が決まれば真ん中が選べる」ので順序尺度から使えますが、平均 $\bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i$ は「足し算と割り算」を必要とするので間隔尺度以上でないと意味を持ちません。さらに、変動係数のように割り算（比）を含む量は、比尺度でないと使えない、というわけです。これらの統計量は次の記事から順に学んでいきます。

5. データセット全体の形による分類

ここまでは「1つ1つの変数」の種類でした。最後に視点を変えて、データセット全体（表）の形による分類も押さえておきましょう。これは「データの集め方」の違いとも言えます。

クロスセクションデータ（横断面データ）：ある一時点で、複数の対象を観測したデータ。例：2026年4月時点の各都道府県の人口。時間が固定なので並び替えが可能です。
時系列データ：同じ対象を、時間を追って観測しつづけたデータ。例：ある会社の月次売上（2020〜2026年）。並び替えると時間の情報が失われます。
パネルデータ：複数の対象を、時間を追って観測したデータ。上の2つを兼ね備えたもの。例：47都道府県の年次人口推移。情報量が一気に増えます。

時系列データは第1章の終盤（1-13・1-14）でくわしく扱います。ここでは「3つの形がある」とだけ押さえておけば十分です。

POINT

見分けのコツは「時間が動くか、対象が複数か」。時間が固定で対象が複数ならクロスセクション、対象が固定で時間が動くなら時系列、両方ならパネルです。

まとめ

第1章 1-1、ポイントを整理します。

質的変数：カテゴリで分類（名義・順序）。量的変数：数量で表す（離散・連続）
判定のコツ：質的か量的かは「平均に意味があるか」、離散か連続かは「数えるか測るか」
尺度水準：名義 → 順序 → 間隔 → 比の順に情報量が増える
間隔と比の違い：原点（0）に絶対的な意味があるか。「2倍と言えれば比尺度」
尺度で使える統計量が決まる：名義＝最頻値、順序＝中央値、間隔＝平均、比＝変動係数
データの形：クロスセクション・時系列・パネルの3種類

次回 1-2 量的データの分布では、量的変数を度数分布表とヒストグラムで「見える化」し、分布の形を読み取る方法を学びます。今日分けた変数の種類が、さっそく活躍しますよ。

さえ

分類、おつかれさま！　迷ったときの合言葉は2つ。「平均に意味ある？」と「2倍って言える？」。この2つを唱えれば、たいていの変数はスパッと分類できるよ。次はいよいよグラフで分布を見ていこう！