トレーニングA・B・Cの3パターンを実施して、効果に差があったかを知りたい。こんなとき「AとB、BとC、CとAでt検定を3回やればいいのでは?」と考えたくなりますよね。
実はこれ、やってはいけないやり方なんです。今回はその理由と、正しい手法「一元配置分散分析(ANOVA:アノーヴァ)」を学習します。導入記事のパターン5にあたる内容です。
この記事で学習できること
- t検定を繰り返してはいけない理由(多重比較の問題)
- 一元配置分散分析(ANOVA)の考え方
- Excelの分析ツールでの計算方法
- 結果(p値)の読み取り方
t検定を繰り返すと、なにが起きるのか
仮説検定には、本当は差がないのに「差がある」と判断してしまう間違い(第一種の過誤)が、有意水準の分だけ必ず含まれています。有意水準5%なら、1回の検定で間違える確率は5%です。
逆にいえば、1回の検定で間違えない確率は95%。ここまでは問題ありません。
では、検定を3回繰り返すとどうなるでしょうか。3回とも間違えない確率は、
0.95 × 0.95 × 0.95 = 0.857...
つまり、少なくとも1回間違える確率は約14.3%まで膨らんでしまいます。4群で6回検定すれば約26%、5群で10回なら約40%。検定は回数を重ねるほど、どこかで間違えるリスクが雪だるま式に増えていくんですね。
これが「多重比較の問題」です。導入記事で「検定は回数を重ねると間違えるリスクが上がっていく」と書いたのは、この話だったわけです。
そこで、一元配置分散分析(ANOVA)
フィッシャーさんが開発した分散分析は、この問題を「検定を1回で済ませる」ことで解決します。
- 帰無仮説:すべての群の平均は等しい(A=B=C)
- 対立仮説:少なくとも1つの群の平均が異なる
考え方のイメージはこうです。データ全体のばらつきを、
- 群間のばらつき(グループごとの平均がどれだけ離れているか)
- 群内のばらつき(同じグループの中での個人差)
の2つに分解します。もしトレーニングの効果に本当に差があるなら、群間のばらつきが群内のばらつきに対して大きくなるはずです。この比率(分散比=F値)を使って判定するため、分散分析はF検定の仲間でもあります。「平均を比べたいのに分散を分析する」という名前のねじれは、ここから来ているんですね。
Excelの分析ツールで計算する
リボンの「データ」→「データ分析」→「分散分析: 一元配置」を選びます。
A・B・Cの各グループを列ごとに並べた範囲を指定して実行すると、分散分析表が出力されます。注目する場所は2つだけです。
- P-値:0.05より小さければ「少なくともどこかの群に有意な差がある」
- 観測された分散比(F値)とF境界値:F値がF境界値を超えていれば、同じく有意
注意:どこに差があるかまでは、わからない
分散分析の結果が有意だったとき、わかるのは「どこかに差がある」ことまでです。AとBなのか、BとCなのかまでは教えてくれません。
そこから先を特定したい場合は「多重比較法(テューキー法など)」という、検定回数の膨張を補正した上でペアごとに比べる手法を使います。Excelの標準機能にはないため、実務では「まずANOVAで全体に差があるかを確認し、有意ならグラフと平均値で当たりをつける」ところまでで十分なケースが多いです。
まとめ
- 3群以上でt検定を繰り返すと、間違いの確率が膨らむ(多重比較の問題)
- だから一元配置分散分析(ANOVA)で「1回の検定」にまとめる
- Excelでは「分散分析: 一元配置」で計算できる
- 有意になっても「どこに差があるか」は別途確認が必要
次の記事では、分散分析にも登場した「分散比」を主役にした、フィッシャーのF検定を学習します。F検定は、このあと学ぶ「ペアではないt検定」の使い分けに直結する重要な検定です。おつかれさまでした。
