質的変数と量的変数
4つの尺度を学習したら、次は質的変数と量的変数について学習していきましょう。
この記事で学習できること
- 変数とは?
- 質的変数について
- 量的変数について
まずは「変数」というキーワードに慣れましょう。
第2講座
データ分析において「変数」とは、異なる値をとることができるデータ要素のことを指します。具体的に、データセット内でどのように存在するかをイメージしていきましょう。
変数
まず、データセットという用語についてです。
データセットとは、行と列で構成される表形式のデータのことを意味します。私たちは一般的に、表やデータベースと呼ぶことが多いですよね。データ分析の界隈では、データセットと呼ぶことが多いので、こちらの呼び名も慣れておきましょう。
そして、通常データセットの「列」にあたる部分が「変数」に相当します。
例えば、Excelやデータベースの表で考えると、各列には「日付」や「売上額」、「商品名」、「顧客年齢」といった異なる種類の情報が含まれています。
この「列」に相当するデータ群を「変数」と表現します。
一方、データセットの「行」は、各変数の観測値の集まり、つまり各変数に対するデータポイントの集まりを表しています。データポイントという用語も押さえておきましょう。
売上データのセットであれば、1行が特定の日付における売上情報全体を表し、各列にはその日付、売上額、販売した商品の情報などが含まれています。
いつも何気なく見ている表も、データセットや変数、データポイントという用語を使うだけで、すごく統計学っぽくなりますよね
これをデータベース的な用語として言い換えると、列単位のデータの集まりを「フィールド」、行単位のデータの集まりを「レコード」なんて呼んだりもするので覚えておいてね
そして、これらの変数には「質的変数」と「量的変数」に分類されます。この2つの変数をそれぞれ見ていきましょう。
質的変数
順序尺度や名義尺度に分類されるデータです。
これには、出身地や血液型など、カテゴリーやラベルとして表現されるデータが含まれます。このタイプの変数は、それぞれのデータ件数をカウントして整理します。
そして全体を100%として、割合を見て差があるかを調べる分析に適しています。
量的変数
比例尺度や間隔尺度、また一部の順序尺度に分類されるデータです。
売上データや販売実績データなど、数値として表されるデータがこれに該当します。これらの変数は、計算が可能であり、数値的な分析に適しています。
尺度と変数の関係
データ分析において、変数はその尺度に基づいて分類されます。一般的に変数と尺度の対応は、以下のようになります。
- 比例尺度(量的変数)
- 間隔尺度(量的変数)
- 順序尺度(質的変数)
- 名義尺度(質的変数)
尺度については、第1講座でご紹介しましたね。
原因と結果となる変数の組み合わせ
さらに、データ分析において、変数間の関係性を把握する必要があります。
特に、原因となる変数と結果となる変数が、どのような組み合わせで存在するのかを理解することで、適切な分析手法を選択することができます。
例えば、
「原因」×「結果」
と定義して変数を割り当てると、以下の4つの組み合わせが考えられます。
- 質的変数 × 質的変数
- 質的変数同士の関係を調べるケース
- 性別と新商品案①②③は、それぞれどのような違いがあるか?
- 質的変数 × 量的変数
- 質的変数が原因で量的変数が結果となるケース
- 各地域によって、平均収入が異なるかどうか?
- 量的変数 × 量的変数
- 量的変数同士の関係を調べるケース
- 売上と広告費の関係性があるかどうか?
- 量的変数 × 質的変数
- 量的変数が原因で質的変数が結果となるケース
- スマートフォンの利用時間経過に伴い、購入意欲が出てくるかどうか?
このような組み合わせに応じて、使用する分析手法も異なります。
これら4つのパターンに基づく分析手法については、別の記事で詳しく解説してきますので、ぜひお楽しみにお待ちください!
まとめ
第2講座では、データセット、変数、データポイントという用語と、変数の分類である「質的変数」と「量的変数」について学びました。
- 変数
- 異なる値をとることができるデータ要素。データセット内で列として存在する
- 質的変数
- カテゴリーやラベルとして表現されるデータで、順序尺度や名義尺度に該当。計算が適用できないのが特徴
- 量的変数
- 数値として表されるデータで、比例尺度や間隔尺度、場合によっては順序尺度にも該当。計算が可能で、数値的な分析に適している
変数の分類だけでなく、分析の目的に応じて変数を異なる尺度に変換することができる点も重要です。目的に応じてグループ化することにより、データに対して多角的な視点を持つことができます。
データの特性をしっかりと把握し、目的に応じたアプローチを選ぶことが、効果的なデータ分析の鍵となります。引き続き、学習を進めていきましょう!
データの特性をしっかりと把握し、目的に合わせて適切なアプローチを選ぶことが、より良い分析結果につながります!