今回の主役は、平均ではなく分散です。フィッシャーさんが開発したF検定は、2つのデータ群の「ばらつきが等しいかどうか」を判定する検定。地味に見えますが、次回学習する「ペアではないt検定」の使い分けを決める、いわばt検定の前さばきを担う重要な検定です。
この記事で学習できること
- F検定がなにを調べる検定なのか
- 分散比(F値)の考え方
- ExcelのF.TEST関数での計算方法
- 分析ツールでの計算方法
- t検定との関係(なぜ先にF検定をするのか)
F検定はなにを調べるのか
たとえば、男性顧客と女性顧客の購入金額を比べたいとします。平均を比べる前に、まず確認しておきたいのが「2つのグループのばらつき方は同じだろうか?」という点です。
- 帰無仮説:2群の分散は等しい
- 対立仮説:2群の分散は等しくない
ばらつきが同じ(等分散)なら、次のt検定はステューデント方式。ばらつきが違うなら、ウェルチ方式。導入記事で紹介した、ゴセットさん→フィッシャーさん→ウェルチさんの歴史が、ここで一本の流れにつながってくるわけですね。
分散比(F値)の考え方
F検定の計算はシンプルで、2つの群の分散の比率を取るだけです。
F値 = 一方の群の分散 ÷ もう一方の群の分散
もし2群のばらつきがまったく同じなら、F値はちょうど1になります。1から大きく離れるほど「分散が等しい」という仮説が怪しくなっていく、という理屈です。
「どれだけ離れたら怪しいのか」の判定には、カイ2乗検定のときと同じように専用の分布表(F分布表)を使いますが、Excelで計算する分には、p値を読むだけでOKです。
ExcelのF.TEST関数で計算する
=F.TEST(配列1, 配列2)
引数は2つのデータ範囲だけ。返ってくる値が、そのまま「2群の分散は等しい」という帰無仮説に対する両側検定のp値です。
- p値が0.05より小さい → 分散は等しくないと判断 → 次はウェルチのt検定へ
- p値が0.05以上 → 分散が等しくないとは言えない → 次はステューデントのt検定へ
分析ツールで計算する
リボンの「データ」→「データ分析」→「F検定: 2標本を使った分散の検定」でも計算できます。
こちらは片側検定として出力される点に注意してください。出力された「P(F<=f) 片側」を2倍すると、F.TEST関数の結果(両側)とおおむね一致します。各群の分散・観測された分散比・F境界値まで一覧になるので、こちらもレポート用に便利です。
実務でのワンポイント
F検定は「分散の違いそのもの」を調べる目的でも使えます。
たとえば、2つの製造ラインで作られた製品の重量データ。平均が同じでも、ばらつきが大きいラインは品質が不安定だと評価できます。サービス業なら、応対時間のばらつきが大きい窓口は対応品質にムラがある、という見方もできますね。「平均は同じなのにクレームが多い」ようなケースの正体は、だいたい分散の方に隠れています。
まとめ
- F検定は「2群の分散(ばらつき)が等しいか」を調べる検定
- F値は分散の比率。1から離れるほど「等分散」が怪しくなる
- ExcelならF.TEST関数で両側のp値が一発で出る
- 結果によって、次に使うt検定(ステューデント/ウェルチ)が決まる
これで、ペアではないt検定を迎え撃つ準備が整いました。次の記事で、t検定シリーズの総仕上げです。おつかれさまでした。
