4つの尺度 – データを素材として扱う
データ分析とは「データを料理すること」と言い換えられます。実際の料理でも、それぞれの素材をしっかりと知らなければいけません。
こちらの記事では、データの素材をしっかりと分類できるように学習していきましょう。
この記事で学習できること
- 比例尺度
- 間隔尺度
- 順序尺度
- 名義尺度
尺度(しゃくど)とは、統計学の用語です。この用語は「基準」と言い換えるとわかりやすいでしょう。データをそれぞれの基準で分類します。
データを種類分けできることが、分析のスタートラインだよ!
第1講座
データは4つの尺度に分類されます。
- 比例尺度(ひれい-しゃくど)
- 間隔尺度(かんかく-しゃくど)
- 順序尺度(じゅんじょ-しゃくど)
- 名義尺度(めいぎ-しゃくど)
①→④と、データの尺度が進むにつれて、使用できる分析手法が制限される、またはデータ自体が持つ情報量が減っていく、というところがポイントです。
① 比例尺度
計算が可能で、数値間の比率に意味があるデータを指します。例えば、
- 売上金額
- 駅からの徒歩時間
- 部屋の面積
- 注文数
などが、このカテゴリに入ります。
これらのデータでは、「売上が2倍になった」「徒歩時間が2倍になった」「部屋の面積が2倍に広がった」「注文数が2倍に増えた」といった表現が可能です。
こうした表現は、データの比率に意味があることを示しています。
また、比例尺度の重要な特徴として、絶対ゼロ点(ゼロが完全な不在、または欠如を意味する点)を持つことが挙げられます。
売上金額が0円であれば、売上が全くない状態を意味し、部屋の面積が0平方メートルであれば、実際に部屋が存在しないことを示します。
これらの特徴から、比例尺度は情報量が最も豊富なデータ尺度といえます。データの比率が具体的な意味を持つため、より詳細な分析が可能です。
掛け算が成立する値が比例尺度、で覚えるとわかりやすいですよ
② 間隔尺度
計算は可能ですが、値の比例関係は成り立ちません。わかりやすい例が「気温」です。
例えば、10℃から20℃への温度上昇は、10℃の差を意味しますが、これは「10℃が20℃の半分である」と解釈することはできません。
ここで言う「間隔」とは、10℃と20℃の間に一定の差がある、ということを指しますが、この数値自体の比例関係は意味を成しません。
また、間隔尺度は絶対ゼロ点を持たないというのもポイントです。0℃は氷点を表しますが、これは温度が全く存在しないことを意味するわけではありません。
温度のような間隔尺度は、0℃は単に特定の点を示すに過ぎず、比例尺度の絶対ゼロ点とは異なります。足し算や引き算は可能ですが、掛け算や割り算は意味を持たないため、情報量は比例尺度よりもその分、少なくなります。
間隔尺度の例は、以下のとおりです。
- 気温
- 西暦
- 時刻
「感覚尺度」と、漢字を間違えないように注意してくださいね!
③ 順序尺度
データが順序、またはランキングによって区別される尺度です。データ間の具体的な量的差異は測定できませんが、順位付けは可能であることを意味しています。
レースの順位が、典型的な例です。
たとえば、レースで2位と4位の順位差があったとします。これは、単に順位における差であり、2位の選手が4位の選手より「2倍速い」や「2倍優れている」ということは意味しません。
単純に、2位の選手が4位の選手よりも前にゴールした、ということだけが分かります。
順位付けされた相対的な位置関係はわかりますが、それらの間の具体的な差異や比率はわかりません。
順序尺度のもう一つの例として、顧客満足度調査などで見られる「非常に満足」「満足」「普通」「不満足」「非常に不満足」のような5段階評価があります。
これらの評価は順序を示していますが、各カテゴリ間の具体的な感情の差は、定量化されていません。ただ、これらのデータを1~5の数字に変換して、満足度の平均評価値を出すことはできます。
順序尺度の例は、次のとおりです。
- 順位
- 5段階の満足度評価
- 年代(10代・20代・30代…)
- 時代(昭和、平成、令和)
- 教育レベル(小・中・高・大)
間隔尺度の「年齢」を「年代」に置き換えると順序尺度になります。「西暦」も「時代」に変換が可能です。データがもつ情報量は下がりますが、グループ化して分析できるメリットが生まれます
④ 名義尺度
データを区別するためのラベルやカテゴリーとして機能します。この尺度においては、データは単に名前や種類によって分類され、数値的な大小や順序は存在しません。
例として、
- 人の名前
- 血液型
- 出身地
- 趣味
などが、名義尺度に当たります。
これらのデータは文字列や記号で表され、各カテゴリー間に数値的な関連性や順序はありません。たとえば、血液型がA型、B型、O型、AB型と分類されていても、これらの間には数値的な上下関係は存在せず、単に異なるタイプを示しているだけです。
名義尺度のデータは、特定のカテゴリーの属性や特徴を識別するのには役立ちますが、数値的な分析や比較には向いていません。
その結果、名義尺度は他の尺度と比較して、情報量が最も限られると言えますが、その分データとしては集めやすく、少ない情報からでも予測分析には十分扱えます。
この名義尺度から分析できるようになると一人前になれます!
まとめ
データを理解し、分析する上で基礎となる4つの尺度を学習しました。
- 比例尺度
- 比率に意味があり、最も情報量が多い
- 間隔尺度
- 比例関係はないが、数値の差が意味を持つ
- 順序尺度
- 順位付けが可能だが、量的差異は示さない
- 名義尺度
- 単なるカテゴリー分けで、数値的な分析には向かない
データ分析の過程で、最も重要なステップの一つは、扱っているデータがどの尺度に分類されるかを正確に理解することです。
それぞれの尺度は、データの特性を反映しており、その分析方法にも影響を与えます。
統計学を学ぶ過程で、これらの概念をしっかりと把握して、データに基づいた有効な意思決定を行うための基礎を固めていきましょう!