発展トラック / 発展6

多重比較（検定の多重性）

このページで学ぶこと

分散分析（5-8）で「3群以上を $t$ 検定で繰り返すのは危険」と触れました。その危険の正体が検定の多重性です。1回の検定では有意水準 $\alpha$ を守っていても、検定を何回も繰り返すと「どこかで偶然に有意が出る」確率がじわじわ膨らみます。

本ページでは、$m$ 回の検定全体で少なくとも1つ誤って棄却する確率──ファミリーワイズエラー率（FWER）──が $\alpha$ より大きくなることを式で導きます。そして対策として、ボンフェローニの不等式とそこから出るボンフェローニ補正、さらに分散分析後によく使うテューキー法にも軽く触れます。表とグラフで「$m$ が増えると FWER がどこまで上がるか」を一目で押さえましょう。

さえ

サイコロを1回振って6が出る確率は低いけど、何回も振れば「いつか出る」よね。検定も同じ！　1回ごとは $5\%$ でも、何度も繰り返すと「どこかで偶然の有意」が出やすくなる。これが多重性。今日は「全体での誤り率（FWER）」をちゃんと計算して、$\alpha/m$ で締め直す方法まで学ぶよ。

1. 多重性の問題 ─ なぜ繰り返すと危ないのか

仮説検定では、本当は差がないのに「差あり」と誤って判定してしまうことを第1種の誤りと呼び、その確率を有意水準 $\alpha$（ふつう $0.05$）に抑えます（4-2）。問題は、この「$5\%$ まで許す」が1回の検定あたりの約束だということです。

たとえば5群あると、ペアの比べ方は $\binom{5}{2}=10$ 通り。10回の検定をそれぞれ $\alpha=0.05$ で行うと、「どれか1つでも偶然に有意」になる確率は $5\%$ をはるかに超えてしまいます。個々の約束は守っているのに、全体としては約束が破れている──これが多重性のこわさです。

POINT

ここで2つの「誤り率」を区別します。
・検定ごとの誤り率（個別の $\alpha$）：1回の検定で誤って棄却する確率。
・ファミリーワイズエラー率（FWER）：$m$ 回の検定の族（family）全体で、少なくとも1つ誤って棄却する確率。
守りたいのは本来 FWER のほうです。多重比較とは「FWER を $\alpha$ 以下に抑えたまま、複数の比較を行う」ための工夫の総称です。

2. FWERを導く ─ 独立な m 回の検定

まず見通しの良い「$m$ 回の検定がすべて独立」というケースで FWER を計算します。各検定で帰無仮説が正しい（本当は差がない）とし、有意水準を $\alpha$ とします。

DERIVATION

1回の検定で「正しく棄却しない」（誤らない）確率は $1-\alpha$。$m$ 回がすべて独立なら、$m$ 回とも誤らない確率は積になります。 $$ \begin{aligned} P(\text{$m$ 回とも誤らない}) &= (1-\alpha)^m \\[2pt] \text{FWER} = P(\text{少なくとも1回誤る}) &= 1 - (1-\alpha)^m \end{aligned} $$ 「少なくとも1回」は「1回も起きない」の余事象として計算するのが定石です（2-1）。

$m=1$ なら FWER $=\alpha$ でぴったり。ところが $m$ が増えると $(1-\alpha)^m$ はどんどん小さくなり、FWER は $\alpha$ を大きく上回ります。$\alpha=0.05$ で具体的な値を並べてみましょう。

検定回数 $m$	$(1-\alpha)^m$	FWER $=1-(1-\alpha)^m$
$1$	$0.950$	$0.050$
$2$	$0.903$	$0.098$
$3$	$0.857$	$0.143$
$5$	$0.774$	$0.226$
$10$	$0.599$	$0.401$
$20$	$0.358$	$0.642$
$50$	$0.077$	$0.923$

$m=10$ で早くも FWER は $40\%$ 超え、$m=20$ では $64\%$。これだけ繰り返せば「ほぼ確実にどこかで偽の有意が出る」状態です。下のグラフで、$m$ とともに FWER が $\alpha=0.05$ の水平線からぐんぐん離れていく様子を見てみましょう。

独立な m 回の検定での FWER=1-(1-α)^m（α=0.05）。回数が増えるほど α の水平線から急速に離れていく

さえ

「少なくとも1つ」と来たら、まず余事象（1つも起きない）を考えるのが鉄板だよ！　$1$ 回も誤らない確率は $(1-\alpha)^m$。これを $1$ から引けば「少なくとも1回誤る」＝FWER。直接「ちょうど1回」「ちょうど2回」…と足すより、ずっとラクでしょ?

3. ボンフェローニの不等式 ─ 独立でなくても使える上限

$1-(1-\alpha)^m$ は便利ですが、検定が独立という前提が要ります。実際の多重比較（同じデータで群のペアを比べるなど）では、検定どうしは独立とは限りません。そこで独立性を仮定せずに使えるボンフェローニの不等式の出番です。

FORMULA

どんな事象 $A_1, A_2, \dots, A_m$ についても、和事象（少なくとも1つ起きる）の確率は、個々の確率の和を超えません。 $$P\!\left(\bigcup_{i=1}^{m} A_i\right) \;\le\; \sum_{i=1}^{m} P(A_i)$$ これがボンフェローニの不等式（劣加法性）です。独立性も排反性も不要で、つねに成り立ちます。

直感は簡単です。$A_i$ どうしが重なっていれば、和事象の確率は「単純に足した値」より小さくなります（重なりを二重に数えているぶん引かれる）。重なりがゼロ（排反）のときに等号で、それ以外は必ず以下。だから「足し算の値」は安全側の上限になるのです。$A_i$ を「$i$ 番目の検定で誤って棄却する」事象とすれば、左辺はまさに FWER です。

DERIVATION

各検定の有意水準を $\alpha_i$ とすると $P(A_i)=\alpha_i$。ボンフェローニの不等式から $$\text{FWER}=P\!\left(\bigcup_{i=1}^{m} A_i\right)\le \sum_{i=1}^{m}\alpha_i$$ 全部を同じ水準 $\alpha_i=\alpha$ で行えば $\text{FWER}\le m\alpha$。つまり $m$ 回繰り返すと、FWER は最悪 $m\alpha$ まで膨らみうる、という上限が独立性なしで言えます。

4. ボンフェローニ補正 ─ α を m で割る

上の不等式 $\text{FWER}\le m\alpha$ を逆に読むと、対策がそのまま見えます。FWER を $\alpha$ 以下に抑えたいなら、各検定の水準を $\alpha/m$ に締めるだけでよいのです。

FORMULA

ボンフェローニ補正：$m$ 回の検定をそれぞれ有意水準 $\alpha/m$ で行う。すると $$\text{FWER}\le \sum_{i=1}^{m}\frac{\alpha}{m}=m\cdot\frac{\alpha}{m}=\alpha$$ となり、検定が独立でなくても FWER は $\alpha$ 以下に抑えられます。

実務では「各検定の $p$ 値を $m$ 倍して $\alpha$ と比べる」と言っても同じことです（$p\le\alpha/m \iff mp\le\alpha$）。とてもシンプルで、どんな検定の組み合わせにも使える万能さが魅力。一方で、$m$ が大きいと基準が厳しくなりすぎて、本当の差を見逃しやすくなる（検出力が下がる）という弱点もあります。

POINT

ボンフェローニ補正は保守的です。$\text{FWER}\le\alpha$ という不等式は安全側に余裕を持たせた上限なので、実際の FWER は $\alpha$ よりさらに小さくなりがち。つまり「第1種の誤りを抑えすぎて、差を見つけにくくなる」傾向があります。検定回数 $m$ が少ないときは手軽で優秀ですが、$m$ が非常に大きい場面では、より検出力の高い方法（ホルム法など）が選ばれることもあります。

5. 数値例：補正の効き目を確かめる

EXAMPLE（5群・10ペアの比較）

5群の母平均をペアごとに比べるとします。比較は $\binom{5}{2}=10$ 通りなので $m=10$。全体の有意水準は $\alpha=0.05$ に保ちたいとします。

(a) 補正なしで各検定を $\alpha=0.05$ で行うと（検定が独立と仮定したときの目安）、 $$\text{FWER}=1-(1-0.05)^{10}\approx 1-0.599 = 0.401$$ 約 $40\%$。本当はどのペアも差がなくても、$10$ 回中どこかで「差あり」と誤判定する確率が $4$ 割もある、という危険な状態です。

(b) ボンフェローニ補正では、各検定を $$\frac{\alpha}{m}=\frac{0.05}{10}=0.005$$ の水準で行います。このとき独立を仮定した実際の FWER は $1-(1-0.005)^{10}\approx 0.0489$ で、ねらいどおり $\alpha=0.05$ 以下。不等式の上限 $m\cdot(\alpha/m)=0.05$ もきちんと守られています。

補正により棄却の基準（$p$ 値の閾値）が $0.05\to0.005$ と $10$ 分の $1$ に厳しくなった点に注目。これが「多重性を抑えるための代償（検出力の低下）」です。下の表で、$m$ ごとの補正後水準と達成 FWER をまとめます。

$m$	補正後の各水準 $\alpha/m$	達成 FWER（独立時）
$2$	$0.0250$	$0.0494$
$3$	$0.0167$	$0.0492$
$5$	$0.0100$	$0.0490$
$10$	$0.0050$	$0.0489$
$20$	$0.0025$	$0.0488$

どの $m$ でも達成 FWER は $0.05$ をわずかに下回り、補正がうまく効いていることがわかります（やや下回るのが「保守的」の表れです）。

6. テューキー法など ─ もう少し賢い多重比較

ボンフェローニは万能ですが厳しすぎることがあるので、目的に合わせた専用の方法も使われます。とくに分散分析（5-8）のあとで「全ペアを比べたい」場面ではテューキー法（テューキーのHSD）が定番です。

POINT

・テューキー法：すべての群ペアを比べる目的に特化し、ステューデント化された範囲という分布を使って FWER を $\alpha$ に制御します。全ペア比較ではボンフェローニより検出力が高いことが多いです。
・ホルム法：ボンフェローニを改良し、$p$ 値を小さい順に段階的な基準と比べる方法。ボンフェローニより検出力が高く、やはり FWER を $\alpha$ 以下に保ちます。
・ダネット法：1つの対照群と他の各群を比べる目的に特化した方法。
いずれも狙いは同じ──FWER を $\alpha$ に抑えたまま、できるだけ差を見つけやすくすることです。

使い分けの目安はこうです。手元の検定が何でもよくて手軽さ重視ならボンフェローニ（やホルム）、分散分析後の全ペア比較ならテューキー、対照群との比較だけならダネット。2級では「多重性が問題になること」と「ボンフェローニ補正の考え方」を押さえれば十分で、専用法は名前と用途を知っておけば安心です。

まとめ

発展6、ポイントを整理します。

多重性：検定を繰り返すと、族全体での第1種の誤り（FWER）が個別の $\alpha$ を超えて膨らむ
FWER（独立時）：$\text{FWER}=1-(1-\alpha)^m$。余事象で導く。$\alpha=0.05$, $m=10$ で約 $0.40$
ボンフェローニの不等式：$P\!\big(\bigcup A_i\big)\le\sum P(A_i)$。独立性なしで成り立つ安全側の上限
ボンフェローニ補正：各検定を $\alpha/m$ で行えば $\text{FWER}\le\alpha$。簡単・万能だが保守的（検出力は下がる）
専用法：全ペアならテューキー法、改良版のホルム法、対照群比較のダネット法。狙いはどれも FWER の制御

これで発展トラックは一区切りです。次回からは付録A 確率分布表の引き方。標準正規・$t$・$\chi^2$・$F$ の数表を、試験本番でつまずかずに引くコツを整理します。これまで導出で意味を理解してきた分布たちを、最後は「素早く正確に使う」段階へ進めましょう。

さえ

多重性、こわさが伝わったかな?　「$m$ 回も繰り返せば、どこかで偶然の有意が出ちゃう」──だから FWER で全体を見て、$\alpha/m$ で締め直す。$\text{FWER}=1-(1-\alpha)^m$ の導出と、$\alpha/m$ 補正の理屈はセットで覚えてね。分散分析で「多重比較が必要」って言ってたのは、このためだったんだよ！