適合度の検定 — 観測度数が理論分布に従うか
「このサイコロ、ちゃんと公平かな?」「この交配、本当に $9:3:3:1$ の比になっている?」──手元のデータ(観測度数)が、ある理論的な分布に当てはまっているかを統計的に判断するのが適合度の検定です。使う道具は、2-12 標本分布で紹介した $\chi^2$ 分布です。
本ページの主役は検定統計量 $\displaystyle \chi^2=\sum_{i=1}^{k}\frac{(O_i-E_i)^2}{E_i}$。観測度数 $O_i$ と、理論から計算した期待度数 $E_i$ の「ズレ」を測る式ですが、なぜ $(O_i-E_i)^2/E_i$ という形なのかを、暗記ではなく直感で腑に落としてから、数値例で表を完成させていきます。本編の最終章、いっしょに仕上げていきましょう。
適合度の検定は「観測 $O_i$ と理論 $E_i$ がどれくらいズレてるか」を $\chi^2$ で測るだけ。ポイントは式の形が「ズレの二乗 ÷ 期待度数」の合計ってこと。なんで割り算するの? って思うよね。そこをちゃんと理解できれば、独立性の検定(6-4)もスイスイいけるよ!
1. 何を検定するのか(直感)
まず、ことばを整理します。データをいくつかのカテゴリ(区分)に分けて数え上げた個数を観測度数 $O_i$ と呼びます。たとえばサイコロを $120$ 回振って「$1$ の目が $16$ 回、$2$ の目が $25$ 回……」と数えた、その回数のことです。
一方、「もし理論どおりなら、各カテゴリは何個になるはずか」を計算した個数を期待度数 $E_i$ と呼びます。公平なサイコロなら、どの目も確率 $1/6$ ですから、$120$ 回中それぞれ $120\times\frac{1}{6}=20$ 回出るはず、という具合です。
適合度の検定とは、観測度数 $O_i$ が、ある理論分布から計算される期待度数 $E_i$ にうまく「適合」しているかを調べる検定です。仮説は次のように置きます。
・帰無仮説 $H_0$:データは理論分布に従う($O_i$ と $E_i$ のズレは偶然の範囲)
・対立仮説 $H_1$:データは理論分布に従わない
ここで大事なのは、$O_i$ と $E_i$ が完全に一致することはまずない、という点です。公平なサイコロでも、$120$ 回振ってきっかり $20$ 回ずつ出ることは稀でしょう。問題は「そのズレが、偶然で説明できる程度か、それとも理論を疑うべき大きさか」です。これを確率で判定するために、ズレ全体を一つの数値にまとめる必要があります。それが検定統計量 $\chi^2$ です。
2. 期待度数 $E_i$ の計算
検定統計量を作る前に、まず期待度数をそろえます。理論分布が各カテゴリ $i$ に確率 $p_i$ を割り当てているとき、総度数 $n$(観測した総数)に対して期待度数は次のように計算します。
$$E_i = n\, p_i \qquad (i = 1, 2, \dots, k)$$ ここで $k$ はカテゴリの数、$p_i$ は理論分布が定めるカテゴリ $i$ の確率、$n=\sum_{i=1}^{k} O_i$ は観測の総度数です。確率の総和は $\sum_{i=1}^{k} p_i = 1$ なので、期待度数の総和は $\sum_{i=1}^{k} E_i = n$ となり、観測の総数と一致します。
たとえばサイコロの一様性なら $p_i=\frac{1}{6}$(すべて等しい)、メンデルの $9:3:3:1$ なら $p_i$ はそれぞれ $\frac{9}{16},\frac{3}{16},\frac{3}{16},\frac{1}{16}$ です。理論が確率 $p_i$ を決め、観測の総数 $n$ を掛けるだけ──ここはシンプルです。
3. なぜ $\dfrac{(O_i-E_i)^2}{E_i}$ なのか(直感の導出★)
ここが本ページの山場です。ズレを測るなら、まず思いつくのは差 $O_i - E_i$ でしょう。でもこれをそのまま全カテゴリで足すと、プラスのズレとマイナスのズレが打ち消し合って必ず $0$ になってしまいます($\sum O_i = \sum E_i = n$ だからです)。これでは「ズレの大きさ」を測れません。
ステップ1:二乗して符号を消す
そこで、分散のときと同じ発想で二乗します。$(O_i - E_i)^2$ なら符号が消え、ズレが大きいほど大きな値になります。ここまでは自然ですね。
ステップ2:期待度数で割って「相対的な」ズレにする
問題は、二乗したズレをそのまま足してよいか、です。ここで「同じ大きさのズレでも、もとの規模が違えば重みが違う」ことに注意します。期待度数 $E_i=10$ のところで $5$ ズレるのと、$E_i=1000$ のところで $5$ ズレるのとでは、前者のほうがずっと「事件」です。つまり、ズレは期待度数を物差しにして相対的に測るべきなのです。
各カテゴリの観測度数 $O_i$ は、ざっくり言えば二項的なばらつきを持ち、その標準偏差はおおよそ $\sqrt{E_i}$ 程度になります($H_0$ のもとで $O_i$ の分散が $E_i$ に近いことに対応します)。そこで、ズレを「その標準偏差で割って標準化」すると、 $$Z_i \approx \frac{O_i - E_i}{\sqrt{E_i}}$$ という、平均 $0$・ばらつき $1$ 程度の標準化された量になります。これを二乗して全カテゴリで足し合わせると、 $$\sum_{i=1}^{k} Z_i^2 \approx \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$ 標準正規に近い量の二乗和──これはまさに $\chi^2$ 分布が生まれる形(2-12)です。だから、この統計量は近似的に $\chi^2$ 分布に従うのです。
まとめると、$(O_i-E_i)^2/E_i$ の正体は「標準化したズレの二乗」です。分母の $E_i$ は、ズレを期待度数という物差しで割り、規模をそろえる役目を担っています。これを全カテゴリ分足したものが検定統計量です。
適合度検定の検定統計量: $$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}$$ $H_0$ が正しいとき、この統計量は近似的に $\chi^2$ 分布に従います。$O_i$ と $E_i$ のズレが小さければ $\chi^2$ は小さく、ズレが大きいほど $\chi^2$ は大きくなります。
4. 自由度の決め方
$\chi^2$ 分布は自由度によって形が変わるので、判定にはどの自由度を使うかが要です。適合度検定の自由度は次のように決めます。
$$(\text{自由度}) = k - 1 - m$$ ここで $k$ はカテゴリの数、$m$ はデータから推定した母数(パラメータ)の個数です。
なぜ最初に $1$ を引くのでしょうか。期待度数には $\sum_{i=1}^{k} E_i = n$ という縛りがあるからです。$k$ 個のカテゴリのうち $k-1$ 個が決まれば、残り $1$ 個は「合計が $n$ になるように」自動的に決まってしまう。自由に動けるのは $k-1$ 個ぶん、というわけです。
さらに $m$ を引くのは、理論分布の母数をデータから推定したぶんだけ、追加で縛りが増えるからです。たとえば「データはポアソン分布に従うか」を検定するとき、平均 $\lambda$ を標本から推定して期待度数を作ったなら $m=1$。一方、サイコロの一様性やメンデルの比のように理論が確率 $p_i$ を完全に指定していて、データから何も推定しない場合は $m=0$ なので、自由度は単純に $k-1$ です。
5. 数値例で表を完成させる
では実際に計算してみましょう。判定は右片側です。$\chi^2$ は「ズレが大きいほど大きくなる」量なので、有意水準 $\alpha$ の上側 $\alpha$ 点 $\chi^2_\alpha(\text{自由度})$ を超えたら $H_0$ を棄却します。
あるサイコロを $120$ 回振り、出た目を数えたところ次の観測度数になりました。このサイコロは公平(一様)といえるでしょうか。有意水準 $5\%$ で検定します。
| 目 | 1 | 2 | 3 | 4 | 5 | 6 | 計 |
|---|---|---|---|---|---|---|---|
| 観測度数 $O_i$ | 16 | 25 | 18 | 14 | 28 | 19 | 120 |
| 期待度数 $E_i$ | 20 | 20 | 20 | 20 | 20 | 20 | 120 |
| $\dfrac{(O_i-E_i)^2}{E_i}$ | 0.80 | 1.25 | 0.20 | 1.80 | 3.20 | 0.05 | 7.30 |
一様なら各目の確率は $p_i=\frac{1}{6}$ なので、期待度数はすべて $E_i=120\times\frac{1}{6}=20$。各セルの寄与を足すと $$\chi^2 = 0.80+1.25+0.20+1.80+3.20+0.05 = 7.30$$ 理論が確率を完全に指定しており推定した母数はないので $m=0$、自由度は $k-1=6-1=5$。$\chi^2$ 分布の上側 $5\%$ 点は $\chi^2_{0.05}(5)=11.07$ です。
$7.30 < 11.07$ なので棄却域に入りません。すなわち $H_0$ は棄却されず、「このサイコロが公平でない」とまではいえません($p$ 値 $\approx 0.20$)。観測されたズレは、偶然の範囲とみなせる、という結論です。
自由度5のχ²分布。観測値7.30は棄却域(11.07より右)に届かず、H₀は棄却されない
エンドウ豆の交配で、表現型が $9:3:3:1$ になるという理論があります。$556$ 個体を観測したところ次の度数でした。理論比に適合するか、有意水準 $5\%$ で検定します。
| 表現型 | 丸・黄 | 丸・緑 | しわ・黄 | しわ・緑 | 計 |
|---|---|---|---|---|---|
| 理論比 $p_i$ | 9/16 | 3/16 | 3/16 | 1/16 | 1 |
| 観測 $O_i$ | 315 | 108 | 101 | 32 | 556 |
| 期待 $E_i$ | 312.75 | 104.25 | 104.25 | 34.75 | 556 |
| $\dfrac{(O_i-E_i)^2}{E_i}$ | 0.016 | 0.135 | 0.101 | 0.218 | 0.470 |
期待度数は $E_i = 556\times p_i$ で計算します。たとえば $E_1 = 556\times\frac{9}{16}=312.75$。各セルの寄与を足すと $$\chi^2 = 0.016+0.135+0.101+0.218 = 0.470$$ 理論が比を完全に指定しているので $m=0$、自由度は $k-1=4-1=3$。上側 $5\%$ 点は $\chi^2_{0.05}(3)=7.815$ です。
$0.470 < 7.815$ で、まったく棄却域に届きません($p$ 値 $\approx 0.93$)。観測度数は理論比 $9:3:3:1$ にみごとに適合していると結論できます。むしろ「できすぎ」なほどよく合っている、有名なデータです。
手順は4ステップ! ①理論から確率 $p_i$ を出す ②期待度数 $E_i=n\,p_i$ を計算 ③各セルで $(O_i-E_i)^2/E_i$ を出して合計 ④自由度 $k-1-m$ の上側 $\alpha$ 点と比べる。表を作って $1$ 列ずつ埋めれば、計算ミスもしにくいよ!
6. 期待度数が小さいときの注意
最後に、実務でつまずきやすい注意点です。この検定で $\chi^2$ が「近似的に」$\chi^2$ 分布に従うと言えるのは、§3 の標準化が成り立つ程度に各カテゴリの度数がそれなりに大きいときに限ります。期待度数 $E_i$ が小さすぎると、この近似が崩れて検定の信頼性が落ちます。
目安として、期待度数 $E_i$ が $5$ 未満のカテゴリがある場合は要注意です。一般には「すべてのカテゴリで $E_i \ge 5$」が望ましいとされます。$E_i$ が小さいカテゴリがあるときは、
・隣り合う・意味の近いカテゴリを併合して $E_i$ を大きくする
・サンプルサイズ $n$ を増やす
といった対処をします。$\chi^2$ の式は分母が $E_i$ なので、$E_i$ が極端に小さいセルは寄与が暴れやすい、と覚えておきましょう。
注意したいのは、見るのは観測度数 $O_i$ ではなく期待度数 $E_i$ だという点です。「$E_i \ge 5$」が基準であって、たまたま観測が小さくても期待度数が十分なら問題ありません。試験でも引っかけポイントになりやすいので、$O$ と $E$ を取り違えないようにしましょう。
まとめ
第6章 6-3、ポイントを整理します。
- 目的:観測度数 $O_i$ が理論分布に適合するかを検定。$H_0$:理論分布に従う
- 期待度数:$E_i = n\,p_i$(理論の確率 $p_i$ に総度数 $n$ を掛ける)
- 統計量:$\chi^2 = \sum_{i=1}^{k} \dfrac{(O_i-E_i)^2}{E_i}$。正体は「標準化したズレの二乗和」
- 自由度:$k-1-m$($k$=カテゴリ数、$m$=データから推定した母数の個数)
- 判定:右片側。$\chi^2 > \chi^2_\alpha(\text{自由度})$ なら $H_0$ を棄却
- 注意:期待度数 $E_i$ が $5$ 未満のセルがあると近似が崩れる。併合などで対処
次回 6-4 独立性の検定 では、同じ $\chi^2$ の考え方をクロス集計表(分割表)に広げます。1-12 クロス集計表で「関連がありそう」と眺めた2変数の関係を、いよいよ統計的に判定します。本編もいよいよ大詰めです。
適合度検定、表を完成させる流れはつかめたかな? $(O-E)^2/E$ の「割り算」は、ズレを期待度数という物差しで測るためだったね。次の独立性の検定も、期待度数の作り方が変わるだけで、$\chi^2$ の足し算はまったく同じ。最後までいっしょにがんばろう!