ｔ検定 – ３群以上のデータ群の検定｜ピーチ・ルーム

トレーニングＡ・Ｂ・Ｃの３パターンを実施して、効果に差があったかを知りたい。こんなとき「ＡとＢ、ＢとＣ、ＣとＡでｔ検定を３回やればいいのでは？」と考えたくなりますよね。

実はこれ、やってはいけないやり方なんです。今回はその理由と、正しい手法「一元配置分散分析（ANOVA：アノーヴァ）」を学習します。導入記事のパターン５にあたる内容です。

仮説検定には、本当は差がないのに「差がある」と判断してしまう間違い（第一種の過誤）が、有意水準の分だけ必ず含まれています。有意水準５％なら、１回の検定で間違える確率は５％です。

逆にいえば、１回の検定で間違えない確率は95％。ここまでは問題ありません。

では、検定を３回繰り返すとどうなるでしょうか。３回とも間違えない確率は、

0.95 × 0.95 × 0.95 = 0.857...

つまり、少なくとも１回間違える確率は約14.3％まで膨らんでしまいます。４群で６回検定すれば約26％、５群で10回なら約40％。検定は回数を重ねるほど、どこかで間違えるリスクが雪だるま式に増えていくんですね。

これが「多重比較の問題」です。導入記事で「検定は回数を重ねると間違えるリスクが上がっていく」と書いたのは、この話だったわけです。

さえちゃん検定をくりかえすほど、どこかで間違えちゃう確率が増えていくんだね…！

フィッシャーさんが開発した分散分析は、この問題を「検定を１回で済ませる」ことで解決します。

考え方のイメージはこうです。データ全体のばらつきを、

の２つに分解します。もしトレーニングの効果に本当に差があるなら、群間のばらつきが群内のばらつきに対して大きくなるはずです。この比率（分散比＝Ｆ値）を使って判定するため、分散分析はＦ検定の仲間でもあります。「平均を比べたいのに分散を分析する」という名前のねじれは、ここから来ているんですね。

リボンの「データ」→「データ分析」→「分散分析: 一元配置」を選びます。

Ａ・Ｂ・Ｃの各グループを列ごとに並べた範囲を指定して実行すると、分散分析表が出力されます。注目する場所は２つだけです。

分散分析の結果が有意だったとき、わかるのは「どこかに差がある」ことまでです。ＡとＢなのか、ＢとＣなのかまでは教えてくれません。

そこから先を特定したい場合は「多重比較法（テューキー法など）」という、検定回数の膨張を補正した上でペアごとに比べる手法を使います。Excelの標準機能にはないため、実務では「まずANOVAで全体に差があるかを確認し、有意ならグラフと平均値で当たりをつける」ところまでで十分なケースが多いです。

次の記事では、分散分析にも登場した「分散比」を主役にした、フィッシャーのＦ検定を学習します。Ｆ検定は、このあと学ぶ「ペアではないｔ検定」の使い分けに直結する重要な検定です。おつかれさまでした。