発展トラック / 発展6

多重比較(検定の多重性)

このページで学ぶこと

分散分析(5-8)で「3群以上を $t$ 検定で繰り返すのは危険」と触れました。その危険の正体が検定の多重性です。1回の検定では有意水準 $\alpha$ を守っていても、検定を何回も繰り返すと「どこかで偶然に有意が出る」確率がじわじわ膨らみます。

本ページでは、$m$ 回の検定全体で少なくとも1つ誤って棄却する確率──ファミリーワイズエラー率(FWER)──が $\alpha$ より大きくなることを式で導きます。そして対策として、ボンフェローニの不等式とそこから出るボンフェローニ補正、さらに分散分析後によく使うテューキー法にも軽く触れます。表とグラフで「$m$ が増えると FWER がどこまで上がるか」を一目で押さえましょう。

さえちゃん
さえ

サイコロを1回振って6が出る確率は低いけど、何回も振れば「いつか出る」よね。検定も同じ! 1回ごとは $5\%$ でも、何度も繰り返すと「どこかで偶然の有意」が出やすくなる。これが多重性。今日は「全体での誤り率(FWER)」をちゃんと計算して、$\alpha/m$ で締め直す方法まで学ぶよ。

1. 多重性の問題 ─ なぜ繰り返すと危ないのか

仮説検定では、本当は差がないのに「差あり」と誤って判定してしまうことを第1種の誤りと呼び、その確率を有意水準 $\alpha$(ふつう $0.05$)に抑えます(4-2)。問題は、この「$5\%$ まで許す」が1回の検定あたりの約束だということです。

たとえば5群あると、ペアの比べ方は $\binom{5}{2}=10$ 通り。10回の検定をそれぞれ $\alpha=0.05$ で行うと、「どれか1つでも偶然に有意」になる確率は $5\%$ をはるかに超えてしまいます。個々の約束は守っているのに、全体としては約束が破れている──これが多重性のこわさです。

POINT

ここで2つの「誤り率」を区別します。
検定ごとの誤り率(個別の $\alpha$):1回の検定で誤って棄却する確率。
ファミリーワイズエラー率(FWER):$m$ 回の検定の族(family)全体で、少なくとも1つ誤って棄却する確率。
守りたいのは本来 FWER のほうです。多重比較とは「FWER を $\alpha$ 以下に抑えたまま、複数の比較を行う」ための工夫の総称です。

2. FWERを導く ─ 独立な m 回の検定

まず見通しの良い「$m$ 回の検定がすべて独立」というケースで FWER を計算します。各検定で帰無仮説が正しい(本当は差がない)とし、有意水準を $\alpha$ とします。

DERIVATION

1回の検定で「正しく棄却しない」(誤らない)確率は $1-\alpha$。$m$ 回がすべて独立なら、$m$ 回とも誤らない確率は積になります。 $$ \begin{aligned} P(\text{$m$ 回とも誤らない}) &= (1-\alpha)^m \\[2pt] \text{FWER} = P(\text{少なくとも1回誤る}) &= 1 - (1-\alpha)^m \end{aligned} $$ 「少なくとも1回」は「1回も起きない」の余事象として計算するのが定石です(2-1)。

$m=1$ なら FWER $=\alpha$ でぴったり。ところが $m$ が増えると $(1-\alpha)^m$ はどんどん小さくなり、FWER は $\alpha$ を大きく上回ります。$\alpha=0.05$ で具体的な値を並べてみましょう。

検定回数 $m$ $(1-\alpha)^m$ FWER $=1-(1-\alpha)^m$
$1$$0.950$$0.050$
$2$$0.903$$0.098$
$3$$0.857$$0.143$
$5$$0.774$$0.226$
$10$$0.599$$0.401$
$20$$0.358$$0.642$
$50$$0.077$$0.923$

$m=10$ で早くも FWER は $40\%$ 超え、$m=20$ では $64\%$。これだけ繰り返せば「ほぼ確実にどこかで偽の有意が出る」状態です。下のグラフで、$m$ とともに FWER が $\alpha=0.05$ の水平線からぐんぐん離れていく様子を見てみましょう。

検定回数 m FWER 1.0 0.5 α=0.05 1 10 20 30 m=10: 0.40 m=20: 0.64

独立な m 回の検定での FWER=1-(1-α)^m(α=0.05)。回数が増えるほど α の水平線から急速に離れていく

さえちゃん
さえ

「少なくとも1つ」と来たら、まず余事象(1つも起きない)を考えるのが鉄板だよ! $1$ 回も誤らない確率は $(1-\alpha)^m$。これを $1$ から引けば「少なくとも1回誤る」=FWER。直接「ちょうど1回」「ちょうど2回」…と足すより、ずっとラクでしょ?

3. ボンフェローニの不等式 ─ 独立でなくても使える上限

$1-(1-\alpha)^m$ は便利ですが、検定が独立という前提が要ります。実際の多重比較(同じデータで群のペアを比べるなど)では、検定どうしは独立とは限りません。そこで独立性を仮定せずに使えるボンフェローニの不等式の出番です。

FORMULA

どんな事象 $A_1, A_2, \dots, A_m$ についても、和事象(少なくとも1つ起きる)の確率は、個々の確率の和を超えません。 $$P\!\left(\bigcup_{i=1}^{m} A_i\right) \;\le\; \sum_{i=1}^{m} P(A_i)$$ これがボンフェローニの不等式(劣加法性)です。独立性も排反性も不要で、つねに成り立ちます。

直感は簡単です。$A_i$ どうしが重なっていれば、和事象の確率は「単純に足した値」より小さくなります(重なりを二重に数えているぶん引かれる)。重なりがゼロ(排反)のときに等号で、それ以外は必ず以下。だから「足し算の値」は安全側の上限になるのです。$A_i$ を「$i$ 番目の検定で誤って棄却する」事象とすれば、左辺はまさに FWER です。

DERIVATION

各検定の有意水準を $\alpha_i$ とすると $P(A_i)=\alpha_i$。ボンフェローニの不等式から $$\text{FWER}=P\!\left(\bigcup_{i=1}^{m} A_i\right)\le \sum_{i=1}^{m}\alpha_i$$ 全部を同じ水準 $\alpha_i=\alpha$ で行えば $\text{FWER}\le m\alpha$。つまり $m$ 回繰り返すと、FWER は最悪 $m\alpha$ まで膨らみうる、という上限が独立性なしで言えます。

4. ボンフェローニ補正 ─ α を m で割る

上の不等式 $\text{FWER}\le m\alpha$ を逆に読むと、対策がそのまま見えます。FWER を $\alpha$ 以下に抑えたいなら、各検定の水準を $\alpha/m$ に締めるだけでよいのです。

FORMULA

ボンフェローニ補正:$m$ 回の検定をそれぞれ有意水準 $\alpha/m$ で行う。すると $$\text{FWER}\le \sum_{i=1}^{m}\frac{\alpha}{m}=m\cdot\frac{\alpha}{m}=\alpha$$ となり、検定が独立でなくても FWER は $\alpha$ 以下に抑えられます。

実務では「各検定の $p$ 値を $m$ 倍して $\alpha$ と比べる」と言っても同じことです($p\le\alpha/m \iff mp\le\alpha$)。とてもシンプルで、どんな検定の組み合わせにも使える万能さが魅力。一方で、$m$ が大きいと基準が厳しくなりすぎて、本当の差を見逃しやすくなる(検出力が下がる)という弱点もあります。

POINT

ボンフェローニ補正は保守的です。$\text{FWER}\le\alpha$ という不等式は安全側に余裕を持たせた上限なので、実際の FWER は $\alpha$ よりさらに小さくなりがち。つまり「第1種の誤りを抑えすぎて、差を見つけにくくなる」傾向があります。検定回数 $m$ が少ないときは手軽で優秀ですが、$m$ が非常に大きい場面では、より検出力の高い方法(ホルム法など)が選ばれることもあります。

5. 数値例:補正の効き目を確かめる

EXAMPLE(5群・10ペアの比較)

5群の母平均をペアごとに比べるとします。比較は $\binom{5}{2}=10$ 通りなので $m=10$。全体の有意水準は $\alpha=0.05$ に保ちたいとします。

(a) 補正なしで各検定を $\alpha=0.05$ で行うと(検定が独立と仮定したときの目安)、 $$\text{FWER}=1-(1-0.05)^{10}\approx 1-0.599 = 0.401$$ 約 $40\%$。本当はどのペアも差がなくても、$10$ 回中どこかで「差あり」と誤判定する確率が $4$ 割もある、という危険な状態です。

(b) ボンフェローニ補正では、各検定を $$\frac{\alpha}{m}=\frac{0.05}{10}=0.005$$ の水準で行います。このとき独立を仮定した実際の FWER は $1-(1-0.005)^{10}\approx 0.0489$ で、ねらいどおり $\alpha=0.05$ 以下。不等式の上限 $m\cdot(\alpha/m)=0.05$ もきちんと守られています。

補正により棄却の基準($p$ 値の閾値)が $0.05\to0.005$ と $10$ 分の $1$ に厳しくなった点に注目。これが「多重性を抑えるための代償(検出力の低下)」です。下の表で、$m$ ごとの補正後水準と達成 FWER をまとめます。

$m$補正後の各水準 $\alpha/m$達成 FWER(独立時)
$2$$0.0250$$0.0494$
$3$$0.0167$$0.0492$
$5$$0.0100$$0.0490$
$10$$0.0050$$0.0489$
$20$$0.0025$$0.0488$

どの $m$ でも達成 FWER は $0.05$ をわずかに下回り、補正がうまく効いていることがわかります(やや下回るのが「保守的」の表れです)。

6. テューキー法など ─ もう少し賢い多重比較

ボンフェローニは万能ですが厳しすぎることがあるので、目的に合わせた専用の方法も使われます。とくに分散分析(5-8)のあとで「全ペアを比べたい」場面ではテューキー法(テューキーのHSD)が定番です。

POINT

テューキー法:すべての群ペアを比べる目的に特化し、ステューデント化された範囲という分布を使って FWER を $\alpha$ に制御します。全ペア比較ではボンフェローニより検出力が高いことが多いです。
ホルム法:ボンフェローニを改良し、$p$ 値を小さい順に段階的な基準と比べる方法。ボンフェローニより検出力が高く、やはり FWER を $\alpha$ 以下に保ちます。
ダネット法:1つの対照群と他の各群を比べる目的に特化した方法。
いずれも狙いは同じ──FWER を $\alpha$ に抑えたまま、できるだけ差を見つけやすくすることです。

使い分けの目安はこうです。手元の検定が何でもよくて手軽さ重視ならボンフェローニ(やホルム)、分散分析後の全ペア比較ならテューキー、対照群との比較だけならダネット。2級では「多重性が問題になること」と「ボンフェローニ補正の考え方」を押さえれば十分で、専用法は名前と用途を知っておけば安心です。

まとめ

発展6、ポイントを整理します。

これで発展トラックは一区切りです。次回からは 付録A 確率分布表の引き方。標準正規・$t$・$\chi^2$・$F$ の数表を、試験本番でつまずかずに引くコツを整理します。これまで導出で意味を理解してきた分布たちを、最後は「素早く正確に使う」段階へ進めましょう。

さえちゃん
さえ

多重性、こわさが伝わったかな? 「$m$ 回も繰り返せば、どこかで偶然の有意が出ちゃう」──だから FWER で全体を見て、$\alpha/m$ で締め直す。$\text{FWER}=1-(1-\alpha)^m$ の導出と、$\alpha/m$ 補正の理屈はセットで覚えてね。分散分析で「多重比較が必要」って言ってたのは、このためだったんだよ!