多重比較(検定の多重性)
分散分析(5-8)で「3群以上を $t$ 検定で繰り返すのは危険」と触れました。その危険の正体が検定の多重性です。1回の検定では有意水準 $\alpha$ を守っていても、検定を何回も繰り返すと「どこかで偶然に有意が出る」確率がじわじわ膨らみます。
本ページでは、$m$ 回の検定全体で少なくとも1つ誤って棄却する確率──ファミリーワイズエラー率(FWER)──が $\alpha$ より大きくなることを式で導きます。そして対策として、ボンフェローニの不等式とそこから出るボンフェローニ補正、さらに分散分析後によく使うテューキー法にも軽く触れます。表とグラフで「$m$ が増えると FWER がどこまで上がるか」を一目で押さえましょう。
サイコロを1回振って6が出る確率は低いけど、何回も振れば「いつか出る」よね。検定も同じ! 1回ごとは $5\%$ でも、何度も繰り返すと「どこかで偶然の有意」が出やすくなる。これが多重性。今日は「全体での誤り率(FWER)」をちゃんと計算して、$\alpha/m$ で締め直す方法まで学ぶよ。
1. 多重性の問題 ─ なぜ繰り返すと危ないのか
仮説検定では、本当は差がないのに「差あり」と誤って判定してしまうことを第1種の誤りと呼び、その確率を有意水準 $\alpha$(ふつう $0.05$)に抑えます(4-2)。問題は、この「$5\%$ まで許す」が1回の検定あたりの約束だということです。
たとえば5群あると、ペアの比べ方は $\binom{5}{2}=10$ 通り。10回の検定をそれぞれ $\alpha=0.05$ で行うと、「どれか1つでも偶然に有意」になる確率は $5\%$ をはるかに超えてしまいます。個々の約束は守っているのに、全体としては約束が破れている──これが多重性のこわさです。
ここで2つの「誤り率」を区別します。
・検定ごとの誤り率(個別の $\alpha$):1回の検定で誤って棄却する確率。
・ファミリーワイズエラー率(FWER):$m$ 回の検定の族(family)全体で、少なくとも1つ誤って棄却する確率。
守りたいのは本来 FWER のほうです。多重比較とは「FWER を $\alpha$ 以下に抑えたまま、複数の比較を行う」ための工夫の総称です。
2. FWERを導く ─ 独立な m 回の検定
まず見通しの良い「$m$ 回の検定がすべて独立」というケースで FWER を計算します。各検定で帰無仮説が正しい(本当は差がない)とし、有意水準を $\alpha$ とします。
1回の検定で「正しく棄却しない」(誤らない)確率は $1-\alpha$。$m$ 回がすべて独立なら、$m$ 回とも誤らない確率は積になります。 $$ \begin{aligned} P(\text{$m$ 回とも誤らない}) &= (1-\alpha)^m \\[2pt] \text{FWER} = P(\text{少なくとも1回誤る}) &= 1 - (1-\alpha)^m \end{aligned} $$ 「少なくとも1回」は「1回も起きない」の余事象として計算するのが定石です(2-1)。
$m=1$ なら FWER $=\alpha$ でぴったり。ところが $m$ が増えると $(1-\alpha)^m$ はどんどん小さくなり、FWER は $\alpha$ を大きく上回ります。$\alpha=0.05$ で具体的な値を並べてみましょう。
| 検定回数 $m$ | $(1-\alpha)^m$ | FWER $=1-(1-\alpha)^m$ |
|---|---|---|
| $1$ | $0.950$ | $0.050$ |
| $2$ | $0.903$ | $0.098$ |
| $3$ | $0.857$ | $0.143$ |
| $5$ | $0.774$ | $0.226$ |
| $10$ | $0.599$ | $0.401$ |
| $20$ | $0.358$ | $0.642$ |
| $50$ | $0.077$ | $0.923$ |
$m=10$ で早くも FWER は $40\%$ 超え、$m=20$ では $64\%$。これだけ繰り返せば「ほぼ確実にどこかで偽の有意が出る」状態です。下のグラフで、$m$ とともに FWER が $\alpha=0.05$ の水平線からぐんぐん離れていく様子を見てみましょう。
独立な m 回の検定での FWER=1-(1-α)^m(α=0.05)。回数が増えるほど α の水平線から急速に離れていく
「少なくとも1つ」と来たら、まず余事象(1つも起きない)を考えるのが鉄板だよ! $1$ 回も誤らない確率は $(1-\alpha)^m$。これを $1$ から引けば「少なくとも1回誤る」=FWER。直接「ちょうど1回」「ちょうど2回」…と足すより、ずっとラクでしょ?
3. ボンフェローニの不等式 ─ 独立でなくても使える上限
$1-(1-\alpha)^m$ は便利ですが、検定が独立という前提が要ります。実際の多重比較(同じデータで群のペアを比べるなど)では、検定どうしは独立とは限りません。そこで独立性を仮定せずに使えるボンフェローニの不等式の出番です。
どんな事象 $A_1, A_2, \dots, A_m$ についても、和事象(少なくとも1つ起きる)の確率は、個々の確率の和を超えません。 $$P\!\left(\bigcup_{i=1}^{m} A_i\right) \;\le\; \sum_{i=1}^{m} P(A_i)$$ これがボンフェローニの不等式(劣加法性)です。独立性も排反性も不要で、つねに成り立ちます。
直感は簡単です。$A_i$ どうしが重なっていれば、和事象の確率は「単純に足した値」より小さくなります(重なりを二重に数えているぶん引かれる)。重なりがゼロ(排反)のときに等号で、それ以外は必ず以下。だから「足し算の値」は安全側の上限になるのです。$A_i$ を「$i$ 番目の検定で誤って棄却する」事象とすれば、左辺はまさに FWER です。
各検定の有意水準を $\alpha_i$ とすると $P(A_i)=\alpha_i$。ボンフェローニの不等式から $$\text{FWER}=P\!\left(\bigcup_{i=1}^{m} A_i\right)\le \sum_{i=1}^{m}\alpha_i$$ 全部を同じ水準 $\alpha_i=\alpha$ で行えば $\text{FWER}\le m\alpha$。つまり $m$ 回繰り返すと、FWER は最悪 $m\alpha$ まで膨らみうる、という上限が独立性なしで言えます。
4. ボンフェローニ補正 ─ α を m で割る
上の不等式 $\text{FWER}\le m\alpha$ を逆に読むと、対策がそのまま見えます。FWER を $\alpha$ 以下に抑えたいなら、各検定の水準を $\alpha/m$ に締めるだけでよいのです。
ボンフェローニ補正:$m$ 回の検定をそれぞれ有意水準 $\alpha/m$ で行う。すると $$\text{FWER}\le \sum_{i=1}^{m}\frac{\alpha}{m}=m\cdot\frac{\alpha}{m}=\alpha$$ となり、検定が独立でなくても FWER は $\alpha$ 以下に抑えられます。
実務では「各検定の $p$ 値を $m$ 倍して $\alpha$ と比べる」と言っても同じことです($p\le\alpha/m \iff mp\le\alpha$)。とてもシンプルで、どんな検定の組み合わせにも使える万能さが魅力。一方で、$m$ が大きいと基準が厳しくなりすぎて、本当の差を見逃しやすくなる(検出力が下がる)という弱点もあります。
ボンフェローニ補正は保守的です。$\text{FWER}\le\alpha$ という不等式は安全側に余裕を持たせた上限なので、実際の FWER は $\alpha$ よりさらに小さくなりがち。つまり「第1種の誤りを抑えすぎて、差を見つけにくくなる」傾向があります。検定回数 $m$ が少ないときは手軽で優秀ですが、$m$ が非常に大きい場面では、より検出力の高い方法(ホルム法など)が選ばれることもあります。
5. 数値例:補正の効き目を確かめる
5群の母平均をペアごとに比べるとします。比較は $\binom{5}{2}=10$ 通りなので $m=10$。全体の有意水準は $\alpha=0.05$ に保ちたいとします。
(a) 補正なしで各検定を $\alpha=0.05$ で行うと(検定が独立と仮定したときの目安)、 $$\text{FWER}=1-(1-0.05)^{10}\approx 1-0.599 = 0.401$$ 約 $40\%$。本当はどのペアも差がなくても、$10$ 回中どこかで「差あり」と誤判定する確率が $4$ 割もある、という危険な状態です。
(b) ボンフェローニ補正では、各検定を $$\frac{\alpha}{m}=\frac{0.05}{10}=0.005$$ の水準で行います。このとき独立を仮定した実際の FWER は $1-(1-0.005)^{10}\approx 0.0489$ で、ねらいどおり $\alpha=0.05$ 以下。不等式の上限 $m\cdot(\alpha/m)=0.05$ もきちんと守られています。
補正により棄却の基準($p$ 値の閾値)が $0.05\to0.005$ と $10$ 分の $1$ に厳しくなった点に注目。これが「多重性を抑えるための代償(検出力の低下)」です。下の表で、$m$ ごとの補正後水準と達成 FWER をまとめます。
| $m$ | 補正後の各水準 $\alpha/m$ | 達成 FWER(独立時) |
|---|---|---|
| $2$ | $0.0250$ | $0.0494$ |
| $3$ | $0.0167$ | $0.0492$ |
| $5$ | $0.0100$ | $0.0490$ |
| $10$ | $0.0050$ | $0.0489$ |
| $20$ | $0.0025$ | $0.0488$ |
どの $m$ でも達成 FWER は $0.05$ をわずかに下回り、補正がうまく効いていることがわかります(やや下回るのが「保守的」の表れです)。
6. テューキー法など ─ もう少し賢い多重比較
ボンフェローニは万能ですが厳しすぎることがあるので、目的に合わせた専用の方法も使われます。とくに分散分析(5-8)のあとで「全ペアを比べたい」場面ではテューキー法(テューキーのHSD)が定番です。
・テューキー法:すべての群ペアを比べる目的に特化し、ステューデント化された範囲という分布を使って FWER を $\alpha$ に制御します。全ペア比較ではボンフェローニより検出力が高いことが多いです。
・ホルム法:ボンフェローニを改良し、$p$ 値を小さい順に段階的な基準と比べる方法。ボンフェローニより検出力が高く、やはり FWER を $\alpha$ 以下に保ちます。
・ダネット法:1つの対照群と他の各群を比べる目的に特化した方法。
いずれも狙いは同じ──FWER を $\alpha$ に抑えたまま、できるだけ差を見つけやすくすることです。
使い分けの目安はこうです。手元の検定が何でもよくて手軽さ重視ならボンフェローニ(やホルム)、分散分析後の全ペア比較ならテューキー、対照群との比較だけならダネット。2級では「多重性が問題になること」と「ボンフェローニ補正の考え方」を押さえれば十分で、専用法は名前と用途を知っておけば安心です。
まとめ
発展6、ポイントを整理します。
- 多重性:検定を繰り返すと、族全体での第1種の誤り(FWER)が個別の $\alpha$ を超えて膨らむ
- FWER(独立時):$\text{FWER}=1-(1-\alpha)^m$。余事象で導く。$\alpha=0.05$, $m=10$ で約 $0.40$
- ボンフェローニの不等式:$P\!\big(\bigcup A_i\big)\le\sum P(A_i)$。独立性なしで成り立つ安全側の上限
- ボンフェローニ補正:各検定を $\alpha/m$ で行えば $\text{FWER}\le\alpha$。簡単・万能だが保守的(検出力は下がる)
- 専用法:全ペアならテューキー法、改良版のホルム法、対照群比較のダネット法。狙いはどれも FWER の制御
これで発展トラックは一区切りです。次回からは 付録A 確率分布表の引き方。標準正規・$t$・$\chi^2$・$F$ の数表を、試験本番でつまずかずに引くコツを整理します。これまで導出で意味を理解してきた分布たちを、最後は「素早く正確に使う」段階へ進めましょう。
多重性、こわさが伝わったかな? 「$m$ 回も繰り返せば、どこかで偶然の有意が出ちゃう」──だから FWER で全体を見て、$\alpha/m$ で締め直す。$\text{FWER}=1-(1-\alpha)^m$ の導出と、$\alpha/m$ 補正の理屈はセットで覚えてね。分散分析で「多重比較が必要」って言ってたのは、このためだったんだよ!