Home / ピーチ・ルーム / t検定 – 3群以上のデータ群の検定
PeachRoom — 統計講座8

t検定 – 3群以上のデータ群の検定

トレーニングA・B・Cの3パターンを実施して、効果に差があったかを知りたい。こんなとき「AとB、BとC、CとAでt検定を3回やればいいのでは?」と考えたくなりますよね。

実はこれ、やってはいけないやり方なんです。今回はその理由と、正しい手法「一元配置分散分析(ANOVA:アノーヴァ)」を学習します。導入記事のパターン5にあたる内容です。

この記事で学習できること

  • t検定を繰り返してはいけない理由(多重比較の問題)
  • 一元配置分散分析(ANOVA)の考え方
  • Excelの分析ツールでの計算方法
  • 結果(p値)の読み取り方

t検定を繰り返すと、なにが起きるのか

仮説検定には、本当は差がないのに「差がある」と判断してしまう間違い(第一種の過誤)が、有意水準の分だけ必ず含まれています。有意水準5%なら、1回の検定で間違える確率は5%です。

逆にいえば、1回の検定で間違えない確率は95%。ここまでは問題ありません。

では、検定を3回繰り返すとどうなるでしょうか。3回とも間違えない確率は、

0.95 × 0.95 × 0.95 = 0.857...

つまり、少なくとも1回間違える確率は約14.3%まで膨らんでしまいます。4群で6回検定すれば約26%、5群で10回なら約40%。検定は回数を重ねるほど、どこかで間違えるリスクが雪だるま式に増えていくんですね。

これが「多重比較の問題」です。導入記事で「検定は回数を重ねると間違えるリスクが上がっていく」と書いたのは、この話だったわけです。

さえちゃんさえちゃん検定をくりかえすほど、どこかで間違えちゃう確率が増えていくんだね…!

そこで、一元配置分散分析(ANOVA)

フィッシャーさんが開発した分散分析は、この問題を「検定を1回で済ませる」ことで解決します。

  • 帰無仮説:すべての群の平均は等しい(A=B=C)
  • 対立仮説:少なくとも1つの群の平均が異なる

考え方のイメージはこうです。データ全体のばらつきを、

  • 群間のばらつき(グループごとの平均がどれだけ離れているか)
  • 群内のばらつき(同じグループの中での個人差)

の2つに分解します。もしトレーニングの効果に本当に差があるなら、群間のばらつきが群内のばらつきに対して大きくなるはずです。この比率(分散比=F値)を使って判定するため、分散分析はF検定の仲間でもあります。「平均を比べたいのに分散を分析する」という名前のねじれは、ここから来ているんですね。

Excelの分析ツールで計算する

リボンの「データ」→「データ分析」→「分散分析: 一元配置」を選びます。

A・B・Cの各グループを列ごとに並べた範囲を指定して実行すると、分散分析表が出力されます。注目する場所は2つだけです。

  • P-値:0.05より小さければ「少なくともどこかの群に有意な差がある」
  • 観測された分散比(F値)とF境界値:F値がF境界値を超えていれば、同じく有意

注意:どこに差があるかまでは、わからない

分散分析の結果が有意だったとき、わかるのは「どこかに差がある」ことまでです。AとBなのか、BとCなのかまでは教えてくれません。

そこから先を特定したい場合は「多重比較法(テューキー法など)」という、検定回数の膨張を補正した上でペアごとに比べる手法を使います。Excelの標準機能にはないため、実務では「まずANOVAで全体に差があるかを確認し、有意ならグラフと平均値で当たりをつける」ところまでで十分なケースが多いです。

まとめ

  • 3群以上でt検定を繰り返すと、間違いの確率が膨らむ(多重比較の問題)
  • だから一元配置分散分析(ANOVA)で「1回の検定」にまとめる
  • Excelでは「分散分析: 一元配置」で計算できる
  • 有意になっても「どこに差があるか」は別途確認が必要

次の記事では、分散分析にも登場した「分散比」を主役にした、フィッシャーのF検定を学習します。F検定は、このあと学ぶ「ペアではないt検定」の使い分けに直結する重要な検定です。おつかれさまでした。

ピーチ・ルームの一覧へ