仮説検定の帰無仮説と対立仮説。最終判断に迷ったとしても…。
こういう傾向にあるのでは? と気づく。これが「仮説」の生まれた瞬間です。
その生まれた「仮説」を立証するために、私たちはデータを集め、検証をします。その際、統計学では1つの仮説から2つの仮説を作る必要があります。
- 生まれた仮説を設定する
- その仮説に対する反対論を設定する
例として「朝コーヒーを飲むと、仕事が捗る」という仮説が生まれたとしましょう。これに対する反対の仮説は、「朝コーヒーを飲んでも、仕事の影響はない」となります。
これは、中学校の数学で習う2つの三角形が合同かどうかを立証するような感じです。数字を使って、仮説が正しいかどうかを結論付けるためのルールがあると理解してください。
それでは、少しずつ話を掘り下げていきましょう。
この記事で学習できること
- 帰無仮説と対立仮説
- p値での採択方法
- 第1種の過誤と第2種の過誤
- 分析判断を恐れないこと
帰無仮説と対立仮説
統計学において、帰無仮説(きむ・かせつ)と対立仮説(たいりつ・かせつ)は、データ分析では重要な概念です。
統計学の勉強では、ときおり英文も読まなければいけないこともあるので、英語表記も覚えておきましょう。この2つの用語はとても重要です。
- 帰無仮説:Null Hypothesis(ナル・ハイポセシス)
- 対立仮説:Alternative Hypothesis(オルターナティブ・ハイポセシス)
次に、帰無仮説と対立仮説の辞書的な説明です。
帰無仮説
通常「H0」と表され、研究で証明または否定されるべき基本的な仮説のこと。
例えば、新しい薬は効果がないという仮説。先ほどの例だと、「朝コーヒーを飲んでも、仕事の影響はない」が帰無仮説です。
対立仮説
通常「H1」と表され、帰無仮説に対して立てられる仮説。
こちらは、新しい薬は効果があるという仮説。先ほどの例だと、「朝コーヒーを飲むと、仕事が捗る」が対立仮説となります。
ポイント
否定されるべき基本的な仮説が帰無仮説だということです。仮説の内容で、否定しているものがすべて帰無仮説になるとは限りません。
統計学の初学者は、ここを間違えてしまいます。
そのため、「朝起きた直後に体操をするのは健康的ではない!」ということを立証したい場合、「朝起きた直後に体操をするのは健康的だ!」という仮説が否定されるべき基本的な仮説となります。
否定されるべき基本的な仮説が、帰無仮説。こちらはしっかりと覚えておいてくださいね。
p値を参考に一方の仮説を採択する
どちらの仮説を採択するか? 判断材料となる値は「p値」となります。
p値に関しては、こちらの記事に詳しく記載いたしましたので、まだ一読されていない方は、こちらの記事を先に読んでおいてください。
p値について、既に理解しているという前提でここから記載いたします。
有意水準をボーダーラインとして、p値で判断する
仮説を検証するために、データを集め、p値を求めます。
ここでもp値の算出方法の解説は長くなってしまうため、ひとまずエクセルを使えばすぐに求まるんだ、と思って読み流してください。
例として、「p値 → 2.5%」 という値が算出されたとしましょう。
p値は、帰無仮説が真であるという前提の下で、観測されたデータが生じる確率を示します。
すでにご存知の通り、p値が小さいほど、その事象のもとでは偶然性が低いという判断となるので、意味がある(有意だ)と見ることができます。
帰無仮説の棄却
無に帰すべき仮説、帰無仮説。
対立仮説が真である場合、「帰無仮説を棄却する」と表現します。
この帰無仮説を棄却するかどうかの決定は、p値と事前に定められた有意水準(α)との比較に基づきます。
- 有意水準(α):帰無仮説を誤って棄却するリスクを許容する最大確率。一般的には5%(0.05)が用いられる。
- 決定の基準:もしp値が有意水準よりも小さい場合、帰無仮説は棄却されます。逆に、p値が有意水準よりも大きい場合、帰無仮説を棄却するには十分な証拠がない、と判断されます。
注意点
p値が有意水準を下回る場合、帰無仮説を棄却することができますが、対立仮説が「証明された」という意味ではありません。
p値は、帰無仮説が誤りである可能性を示唆するものであり、対立仮説が真である直接的な証拠ではないのです。
なので、p値だけの点で判断することは視野の狭い判断だ、ということになります。
無責任な注意点に聞こえるのですが、p値だけではなく、データを情報化するうえで、総合的に判断をする必要があるわけです。
それでは、棄却と採択方法について見ていきましょう。
棄却と採択
p値が有意水準を下回った場合の言い方です。
帰無仮説を棄却して、対立仮説を採択する
といいます。p値が有意水準を上回った場合の言い方は、逆になるだけ。
対立仮説を棄却して、帰無仮説を採択する
このように、仮説を立て、データを集め、p値を見て、総合的にデータを情報化する一連のフローを「統計的検定」と呼びます。
p値と有意水準を適切に理解し、それらの関係に基づいて帰無仮説の採用または棄却の決定を行うことが重要です。さらに、データの質や、その状況の背景、経験則、訪れるだろう直感的かつ精度の高い予測など、十分に考慮することが必要となります。
注意点のセクションで「無責任に聞こえる」と申し上げましたが、理由として、オーディエンスは分析の過程に誰も興味はありません。
正しい予測と結果が、マッチすることだけにしか興味がないのです。
皆さんも、天気予報が外れたら「天気予報は雨なんて言わなかった」とつぶやくことでしょう。 精度の高い天気予報ですら、外れることもあります。
分析結果はすべてのステークホルダーに影響を及ぼすため、全責任を背負うのは判断した人となるわけです。私のように指導している側は、ここから先の行動について何もアドバイスができないため、無責任に聞こえてしまいます。
例えば、p値が0.04と算出されたとしましょう。有意水準5%を下回ったため、帰無仮説を棄却、しかし真実は帰無仮説が真であることもあるよ、ということです。
p値で証明されれば、こんなに楽なことはないんですけれどもね。
過誤(かご)
ほとんどの統計学の教科書では、帰無仮説と対立仮説を学習すると、
- 第1種の過誤(タイプ1エラー / αエラー)
- 第2種の過誤(タイプ2エラー / βエラー)
という用語が直後に出てきます。
これらは判断を間違えたときの用語です。次に教科書的な説明を入れておきます。
第1種の過誤
帰無仮説が真であるにも関わらず、誤って帰無仮説を棄却する過誤。
第2種の過誤
帰無仮説が偽であるにも関わらず、誤って帰無仮説を採択する過誤。
真と偽、True or False の表現が教科書的な言い回しなのですが、イメージできますでしょうか? あらゆる統計の検定試験に出てくる内容です。
紙とペンを使わないと、勉強中だった頃の私はここの理解が大変でした。
帰無仮説を採択 | 帰無仮説を棄却 | |
帰無仮説が真 | 分析結果は正しい | 第1種の過誤 |
帰無仮説が偽 | 第2種の過誤 | 分析結果は正しい |
練習問題
ここまで、統計的検定・p値・帰無仮説と対立仮説を学習しました。さて、ここで練習問題です。第1種の過誤と第2種の過誤、どちらのダメージが大きいでしょうか?
いったん、読むのを中止して考えてみてください。身近な仮説を立てていただければ、どちらが重大なエラーになるのかが想定しやすくなるかと思います。
ヒントは仮説を立ててみてください。
ここの水素水は美に有効だ! このサプリを飲むとダイエット効果が出る! エナジードリンクを飲むと仕事が捗る! この手の仮説でも、答えを導けるかと思います。
制限時間は10分。よーいスタート!
サバイバル動画を見て学んだこと
答えがすぐに見えないよう、ちょっと話の脱線をします。
新型コロナウイルスが蔓延して緊急事態宣言が出たとき、講師業としての繁忙期でもある4月でした。予定されていた研修はすべて流れ、完全失業状態となってしまったので、部屋にこもってYouTubeばかり見ていました。
そのとき、ディスカバリーチャンネルの「サバイバルゲーム Man vs. Wild」をずっと視聴していました。イギリス軍特殊部隊出身、サバイバルのスペシャリストであるベア・グリルスの動画です。ぜひ検索して動画を視聴してみてください。
在宅応援期間ということで、動画を無料公開してくれたので、当時はたくさん動画がありました。最高に面白かった。
その中の動画で、ベアがこのようなことを話していました。
お布団の中でぼーっと見ていたため、どのシリーズだったかは失念してしまい、かつ字幕通りではありませんが、自分の記憶に残っている言葉で並べてみます。
滝つぼの岩場にのっかって、川を下りながらのシーンだったと思います。
「脱出するためには、判断を恐れないこと。判断をしなかったり、判断が遅れたりすれば、その分助かる可能性はなくなっていく。判断をして間違えたのなら、戻ればいい。重要なのは、常に最善だと思う判断をすること。体力は時間とともに無くなっていく」
この言葉がものすごく心に刺さったんですね。データ分析もそうじゃないか! と。
「会社の利益を上げるためには、判断を恐れないこと。分析をしなかったり、行動が遅れたりすれば、その分成長の機会を失ってしまう。分析結果が間違っているのなら、軌道修正すればいい。重要なのは、常に最善だと思う行動をすること。会社の金は人件費とともに無くなっていく」
こんな当てはめができますよね。
帰無仮説と対立仮説を間違えたとしても、何も恐れる必要はありません。常に最善だと思う判断をしていれば、必ずベアのように最後は脱出(成功)するはずです。
サバイバルから統計学の理解を深められたのは意外でした。
練習問題の解答
それでは答えです。
第1種の過誤と第2種の過誤、ダメージが大きいのは第2種の過誤です。仮説をワクチンに例えるとわかりやすいでしょう。
- このワクチンは効果がある(対立仮説)
- このワクチンは効果がない(帰無仮説)
第1種の過誤は、帰無仮説が真であるにも関わらず、誤って帰無仮説を棄却する過誤。
ワクチンの効果がないにも関わらず(帰無仮説が真)効果があると判断してしまう(帰無仮説を棄却して対立仮説を採択)ので、リスクはさほどありません。
副反応問題を別とすると、もともと効果がないので何も起きないということです。
第2種の過誤は、帰無仮説が偽であるにも関わらず、誤って帰無仮説を採択する過誤。
ワクチンの効果があるにも関わらず(帰無仮説が偽)効果がないと判断してしまう(対立仮説を棄却して帰無仮説を採択)ので、大変です。
ワクチンで救える命が救えないということなので、ダメージは深刻です。
おわり
帰無仮説と対立仮説、いかがでしたでしょうか?
そしてこれらに関連する過誤を正確に理解し、適切に対処することは、統計的分析の正確性と信頼性を保つためにとても重要です。
特に、第2種の過誤のリスクを理解して、これを最小限に抑えるための戦略を開発することは、分析する人にとってとても大切なことです。
自分が最善だと思った判断に自信をもってください。判断はしないよりしたほうがいい、間違えても戻れることを覚えておいてください。
逃げ腰の状態になってしまうと、第2種の過誤を招きやすいとも言われています。
判断できないまま時間が過ぎることが最悪だと認識してください。私もそのマインドで日々分析業務にあたっています。