t検定を学習する前に
こちらはt検定を学習する前の導入記事です。t検定は複雑なので、いったん分析手法の誕生した歴史も学習しておくと入りやすいと思い、ここでまとめさせていただきました。
この記事で学習できること
- t検定が必要なとき
- スチューデントのt検定
- フィッシャーのF検定
- ウェルチのt検定
- 一元配置分散分析(ANOVA)
まず、t検定に必要な主要人物を押させておきましょう。
t検定に絡む3人の数学者たち
t検定を迷わず確実に使うために、以下の3名の数学者をご紹介します。
ウィリアム・セーリー・ゴセット
1876年、イギリス・カンタベリーで生まれ、オックスフォード大学で化学と数学を学び、1899年にギネスビール社の化学者としてのキャリアをスタート。
そのとき、小標本での品質管理のためにt検定を開発しました。
ただ、ギネスビール社のポリシーにより、ゴセットさん自身の名前ではなく「Student」というペンネームを使用して、1908年にこの検定を発表します。
これがt検定のはじまりです。
ロナルド・エイルマー・フィッシャー
1890年にロンドンで生まれ、ケンブリッジ大学で数学を学びました。
統計学、遺伝学、進化生物学の分野で顕著な業績を上げ、現代統計学の基礎を築きました。特に分散分析(ANOVA:アノーヴァ)、最尤(さいゆう)推定法、フィッシャーの正確検定などの統計手法を開発し、ゴセットさんのt検定をさらに発展させました。
そして、1920年代ぐらいの話。
フィッシャーさんはF検定(分散比の検定)を導入し、2つの標本の分散が同じかを評価するための重要なツールとして、統計学・また生物学にも貢献しました。
バーナード・ルイス・ウェルチ
1911年生まれ、イギリスの統計学者で教育者です。ウェルチさんはあまり細かい情報を見つけられなかったのですが、1947年、ウェルチのt検定を開発したことで知られています。
この検定は、分散が等しくないと仮定される2つの独立した標本間の平均値の差を検定するために使用されます。
ウェルチさんのこの貢献により、ステューデントのt検定が持っていた脆弱性をカバーし、統計学におけるデータ分析の精度が向上しました。
以上となります。3人の自分の時系列はこれでOKですね。
t検定を行うとき
仮説検定において、t検定が必要となるシーンは、2変数のうち、原因となる変数(説明変数)が質的変数で、結果となる変数(目的変数)が量的変数の場合です。
- 原因:質的変数
- 結果:量的変数
男性と女性で購入金額に差があるかどうか? 薬の投与前と投与後で、血液検査の数値に反応が出たかどうか? このような事案にt検定を使って評価をします。
t検定のパターン1
1標本t検定
基準となる値があり、手元の計測した数値と差があるかどうかを調べるt検定(ステューデントのt検定のひとつ)
事例として、企業Aが新しい製品を市場に投入する前に、内部で製品の品質テストを行ったとします。
品質の目標値がある特定の数値で設定されており、製品がこの基準を満たしているかどうかを確認する必要があります。このケースにおいて、1標本t検定を用いて実際のテスト結果が設定された基準値と、統計的に有意な差があるかどうかを判断できます。
t検定のパターン2
一対(ペア)の標本による平均の検定
データの前後比較の検定です。薬の投与前と投与後で、血液検査の数値に反応が出たかどうか? このような投与前・投与後の関係を「ペア・一対」と表現します。
事例として、新しい抗アレルギー薬が開発され、その効果をテストする臨床試験が行われました。患者に薬を投与する前後で血液検査を行い、アレルギー反応に関連する特定の指標を測定します。
ここで、ペアのt検定を使用して、薬の投与前後での指標の変化が統計的に有意かどうかを分析する、これもステューデントのt検定のひとつです。
t検定のパターン3
等分散を仮定した2標本による検定
事例からご紹介すると、ファッション小売業者が男性と女性の顧客間での平均購入金額に差があるかどうかを調査する場合を考えます。
男性と女性の顧客サンプルから購入金額のデータを収集し、その2群のデータの分散が等しいと仮定した場合、2群間での平均値の違いが統計的に有意かどうかをステューデントのt検定で分析できます。
分散が等しいか等しくないかは、フィッシャーのF検定を使って判定します。ですので、t検定をする前にF検定をするパターンです。
t検定のパターン4
分散が等しくないと仮定した2標本による検定
パターン3の事例で、フィッシャーのF検定を行った結果、分散が等しくない、つまりどちらか一方の標本はばらついていて、もう片方はばらついていないことが判明したとき、こちらのt検定を行います。
こちらはウェルチのt検定、つまりウェルチさんが見つけたステューデントの脆弱性があったパターンはこれでした。
t検定のパターン5
一元配置分散分析
比較したいデータが3つ以上の場合です。
例えば、トレーニングAパターン・Bパターン・Cパターンと3種類のプログラムを実施したとき、意味のある差が見られたかどうか? を計算します。
こちらは、フィッシャーさんの開発した「一元配置分散分析(ANOVA)」で一発処理を行います。本来であれば、AとBの比較、BとCの比較、CとAの比較とやるべきですが、検定は回数を重ねると間違えるリスクが上がっていきます。
そのため、一発で処理を完了させるといった考え方です。
まとめ
このように、t検定は実際の分析パターンにおいて、5パターンは最低でも存在するため、そのため計算式が出来上がった順番に数学者と人物をご紹介いたしました。
一気に理解しようとせず、それぞれのt検定を学習したらこちらに戻って復習する、といった勉強方法がいいかなと思います。
t検定はどのときにどの手法を使うのか悩ましいのは、これだけパターンが存在しているからなんですね。ひとまずこちらの記事は以上となります。おつかれさまでした。