クロス集計表 — 周辺分布と条件付き分布
3級でもクロス集計表に少し触れました。2級では一歩進んで、表を「2つの質的変数の同時分布」として読み解きます。表の端に書かれる周辺度数・周辺分布、行や列ごとに割合を出した条件付き分布、そして2つの変数に関連があるかどうかの見分け方までを、数値例で一つずつ確認します。
ここで身につく「行で割るのか、列で割るのか、全体で割るのか」という感覚は、第6章の独立性の検定(カイ二乗検定)にそのままつながります。難しい計算はありません。表のどこを見ているかを、いつも意識するのがコツです。
クロス集計表って、見るだけなら簡単そうだよね。でも2級では「割合をどの向きで出すか」で意味がガラッと変わるの。ここを混乱しないようにするのが今日のテーマだよ!
1. クロス集計表は「2変数の同時分布」
1つの質的変数を集計したものが度数分布表でした。クロス集計表(分割表ともいいます)は、2つの質的変数を組み合わせて、「どの組み合わせが何件あるか」を一覧にした表です。各マス(セル)の数字は、行の条件と列の条件の両方を同時にみたす件数を表します。
例として、ある講座の受講者200人について「性別」と「受講後に資格に合格したか」を集計したとします。
| 合格 | 不合格 | |
|---|---|---|
| 男性 | 48 | 72 |
| 女性 | 42 | 38 |
左上の「48」は、男性かつ合格の人が48人いることを意味します。このように、2つの質的変数 $X$(性別)と $Y$(合否)が同時に取る値の組み合わせごとの度数を並べたものを、$X$ と $Y$ の同時度数分布と呼びます。各度数を総数で割れば、各組み合わせの起こりやすさ(同時相対度数)になります。
$r$ 行 $c$ 列のクロス集計表を「$r \times c$ 表」と呼びます。上の表は $2 \times 2$ 表です。各セルの度数を $n_{ij}$、総数を $n$ と書くと、同時相対度数は $\dfrac{n_{ij}}{n}$ です。
2. 周辺度数と周辺分布
クロス集計表に行ごとの合計と列ごとの合計を書き足してみましょう。これらを周辺度数(marginal frequency)と呼びます。表の「周辺(端)」に並ぶ度数だから、という覚え方でしたね。
| 合格 | 不合格 | 行和 | |
|---|---|---|---|
| 男性 | 48 | 72 | 120 |
| 女性 | 42 | 38 | 80 |
| 列和 | 90 | 110 | 200 |
行和(男性120人・女性80人)は、合否を無視して性別だけを集計した分布です。列和(合格90人・不合格110人)は、性別を無視して合否だけを集計した分布です。このように、一方の変数を足し合わせて消し、もう一方の変数だけの分布に戻したものを周辺分布と呼びます。
$X$ の周辺度数は $Y$ について足し集めて得られます。 $$n_{i\cdot} = \sum_{j} n_{ij}, \qquad n_{\cdot j} = \sum_{i} n_{ij}$$ ここで $n_{i\cdot}$ は第 $i$ 行の行和、$n_{\cdot j}$ は第 $j$ 列の列和です。点($\cdot$)は「その添字について足した」という印です。
右下の「200」は総和で、行和の合計とも列和の合計とも一致します($120+80=90+110=200$)。一致しなければどこかで数え間違いがあるので、検算に使えます。
3. 条件付き分布 — 「行で割る・列で割る」
ここからが2級らしい見方です。各セルの度数を何で割るかによって、表から読み取れる意味が変わります。
同時相対度数(全体で割る)
まず素直に、各セルを総数200で割ってみます。これは「ランダムに1人選んだとき、その組み合わせである確率」にあたります。
| 全体=200で割る | 合格 | 不合格 | 行和 |
|---|---|---|---|
| 男性 | 0.24 | 0.36 | 0.60 |
| 女性 | 0.21 | 0.19 | 0.40 |
| 列和 | 0.45 | 0.55 | 1.00 |
表の端(周辺)に出てきた $0.60,\,0.40$ は性別の周辺分布、$0.45,\,0.55$ は合否の周辺分布です。同時相対度数から周辺の割合がそのまま読めるのが気持ちいいところです。
行ごとの相対度数(行和で割る)= 条件付き分布
次に、各行をその行和で割ります。すると「男性のうち合格は何割か」「女性のうち合格は何割か」がわかります。これは「性別という条件を固定したときの合否の分布」、すなわち条件付き分布です。
| 行で割る(性別ごと) | 合格 | 不合格 | 計 |
|---|---|---|---|
| 男性(120人中) | 0.40 | 0.60 | 1.00 |
| 女性(80人中) | 0.525 | 0.475 | 1.00 |
男性の合格率は $48 \div 120 = 0.40$、女性の合格率は $42 \div 80 = 0.525$。各行が合計1になっていることに注目してください。これは「行の変数で条件付けたら、列の変数の分布になる」という意味で、確率の言葉では $P(Y \mid X)$ にあたります。
列ごとの相対度数(列和で割る)
逆に各列を列和で割ると、「合格者のうち男性は何割か」という別の問いに答えられます。
| 列で割る(合否ごと) | 合格(90人中) | 不合格(110人中) |
|---|---|---|
| 男性 | 0.533 | 0.655 |
| 女性 | 0.467 | 0.345 |
| 計 | 1.00 | 1.00 |
同じ表でも、全体で割る・行で割る・列で割るの3通りで意味がまったく変わります。知りたい問いが「○○のうち△△は何割?」なら、○○の合計で割る──これが鉄則です。
「男性の合格率」と「合格者の男性割合」って、まったく別物だよ! 前者は行で割る、後者は列で割る。試験でもよく入れ替えて引っかけてくるから、「何のうちの何か?」を声に出して確認してね。
4. 関連があるかどうかの見分け方
2つの質的変数に関連(連関)があるとは、ざっくり言えば「一方の値を知ると、もう一方の出方が変わる」ことです。クロス集計表では、行ごとの条件付き分布を見比べるのが基本の見方です。
行を見比べる
さきほどの条件付き分布をもう一度見ます。男性の合格率は0.40、女性は0.525でした。行によって割合のパターンが違うので、「性別と合否には関連がありそうだ」と読めます。もし関連がなければ、どの行も同じ割合のパターンになるはずです。
関連がない(独立)とはどういう状態か
関連がまったくない状態を独立といいます。独立なら、行で割っても列で割っても、条件付き分布が周辺分布と一致します。次の表は、合否の周辺割合(合格45%・不合格55%)が男女どちらでもそのまま保たれている、独立の見本です。
| 独立な場合(期待度数) | 合格 | 不合格 | 行和 |
|---|---|---|---|
| 男性 | 54 | 66 | 120 |
| 女性 | 36 | 44 | 80 |
| 列和 | 90 | 110 | 200 |
この表では男性の合格率も女性の合格率も $54/120 = 36/80 = 0.45$ で、全体の合格率45%とぴったり同じです。各セルの度数は「行和 × 列和 ÷ 総和」で作られています。たとえば男性・合格のマスは $120 \times 90 \div 200 = 54$。この値を期待度数と呼び、第6章の独立性の検定では「実際の度数」と「もし独立ならこうなるはずの期待度数」のズレを測ります。
独立を仮定したときの期待度数: $$e_{ij} = \frac{n_{i\cdot}\, n_{\cdot j}}{n}$$ 実際の度数 $n_{ij}$ がこの $e_{ij}$ から大きく離れているほど、2変数の関連が強いと判断できます。
「行ごとの割合がそろっていれば独立、バラついていれば関連あり」──まずはこの感覚でOK。ズレを数字でカチッと検定するのが、第6章のカイ二乗検定だよ。今日の表の読み方が全部つながってくるからね!
5. 数値例:2×3表で読む
列が3つに増えても、考え方はまったく同じです。あるサービスについて、年代(若年・中年・高年)と満足度(満足・不満)を集計した $2 \times 3$ 表で練習しましょう(縦に満足度、横に年代を取っています)。
| 若年 | 中年 | 高年 | 行和 | |
|---|---|---|---|---|
| 満足 | 60 | 50 | 30 | 140 |
| 不満 | 40 | 30 | 10 | 80 |
| 列和 | 100 | 80 | 40 | 220 |
各年代の「満足率」を知りたいので、列で割ります(年代という条件を固定)。
- 若年の満足率:$60 \div 100 = 0.60$(60%)
- 中年の満足率:$50 \div 80 = 0.625$(62.5%)
- 高年の満足率:$30 \div 40 = 0.75$(75%)
年代が上がるほど満足率が高い、という傾向(関連)が読み取れます。もし独立なら、どの年代も全体の満足率 $140 \div 220 \approx 0.636$ になるはずでした。高年の0.75はそこから大きく上振れしているので、年代と満足度には関連がありそうだ、と判断できます。
$r \times c$ 表になっても手順は不変です。(1) 知りたい問いを「何のうちの何か?」の形にする → (2) その「何の」にあたる合計で割る → (3) 行(または列)どうしで割合を見比べる。これだけで関連の有無まで読み取れます。
まとめ
第1章 1-12、ポイントを整理します。
- クロス集計表:2つの質的変数の同時度数分布。各セルは両条件を同時にみたす度数 $n_{ij}$
- 周辺度数・周辺分布:行和 $n_{i\cdot}=\sum_j n_{ij}$、列和 $n_{\cdot j}=\sum_i n_{ij}$。片方を消して1変数の分布に戻したもの
- 割る向きで意味が変わる:全体で割る=同時相対度数、行で割る・列で割る=条件付き分布
- 関連の見方:行(列)ごとの条件付き分布がそろっていれば独立、バラついていれば関連あり
- 期待度数:$e_{ij}=\dfrac{n_{i\cdot} n_{\cdot j}}{n}$。実際の度数とのズレが連関の強さ。第6章の独立性の検定へつながる
次回 1-13 時系列データ① では、データを時間軸に並べた「時系列」を扱い、成長率の平均を正しく出すための幾何平均を学びます。
クロス集計表は「割る向き」がすべて! 今日の表をもう一度ノートに書いて、行で割った割合と列で割った割合を自分の手で出してみてね。それができたら、第6章のカイ二乗検定はもう怖くないよ。