第4章 4-1 / 統計的仮説検定

仮説検定の考え方 — 帰無仮説・有意水準・p値

このページで学ぶこと

第3章では、データから母数を「区間で推定する」方法を学びました。第4章のテーマは、その双子の兄弟ともいえる仮説検定です。仮説検定は「ある主張が正しいかどうかを、データを証拠にして判断する」手続き。3級でもさわりは触れましたが、2級では「なぜその判断でよいのか」という論理の骨組みまで踏み込みます。

主役は4つ。否定したい主張をあえて置く帰無仮説 $H_0$、主張したい本命の対立仮説 $H_1$、判断の境界線になる有意水準 $\alpha$、そして観測されたデータの「珍しさ」を測るp値です。これらが「背理法に似た論理」でどうつながるのかを、コイン投げを相棒に一歩ずつ追っていきましょう。

さえちゃん
さえ

仮説検定の合言葉は「もし $H_0$ が本当だったら、こんな結果は珍しすぎて起こらないはず」。数学でいう背理法にそっくりだよ。否定したい仮説をいったん信じてみて、矛盾が出たら「やっぱり違うね」って結論する。ちょっと回りくどいけど、慣れると気持ちいい考え方なんだ!

1. 仮説検定の発想 ── 背理法に似た論理

まず、仮説検定の「気持ち」をつかみましょう。これは独特な論理の流れを持つので、最初にイメージを固めておくと後がラクになります。

身近な例で考える

友人が「このコイン、ちゃんと公平だよ」と言って目の前で10回投げたら、10回連続で表が出ました。あなたはどう感じますか? おそらく「本当に公平?」と疑い始めるはずです。

理由はシンプルで、公平なコインで10連続表が出る確率は $\left(\tfrac{1}{2}\right)^{10} \approx 0.001$、つまりおよそ1024回に1回しか起こらないからです。「もし公平なら、こんなことは滅多に起こらない。なのに実際に起きた。だったら公平という前提のほうが怪しい」──こう考えるのが自然ですよね。

背理法との対応

この流れ、数学の背理法(証明したいことの否定を仮定し、矛盾を導いて否定を退ける論法)とよく似ています。違いは「矛盾」の代わりに「確率的にありえないほど珍しい」を使う点。完全な矛盾ではなく「矛盾の度合い」を確率で測る、いわば確率版の背理法です。

POINT

仮説検定の論理は3ステップです。
① 否定したい主張(帰無仮説 $H_0$)をいったん正しいと仮定する。
② その仮定のもとで、観測されたデータが起こる確率(=矛盾の度合い)を計算する。
③ その確率が小さすぎるなら「仮定が無理あったのでは?」と考え、$H_0$ を棄却する。
背理法の「矛盾」を「確率的な珍しさ」に置き換えたもの、と覚えておきましょう。

2. 帰無仮説 $H_0$ と対立仮説 $H_1$

仮説検定では、2つの仮説を立てて対比させます。役割がはっきり違うので、混同しないよう整理しましょう。

帰無仮説 $H_0$

帰無仮説(きむかせつ、null hypothesis)は、検定で「否定したい・無に帰したい仮説」です。記号は $H_0$。背理法でいう「仮に正しいとおいてみる前提」にあたります。

コインの例なら「このコインは公平である」、式で書くと $p = 0.5$ が帰無仮説です。ここで $p$ は表が出る確率(母比率)、判断の出発点になる具体的な値を帰無値と呼び、$p_0=0.5$ のように添字 $0$ を付けて表します。「等号($=$)で書ける、はっきりした1つの値」になっているのがポイントです。

対立仮説 $H_1$

対立仮説(たいりつかせつ、alternative hypothesis)は、私たちが「本当に主張したい仮説」です。記号は $H_1$。$H_0$ を棄却できたときに、代わりに採用される側です。

コインの例なら「このコインは公平でない」、式では $p \neq 0.5$ が対立仮説。「公平じゃないよ!」というのが、私たちの本命の結論ですね。

名称 役割 書き方の特徴 コインの例
帰無仮説 $H_0$仮に正しいとおく前提等号でただ1点を指定$p = 0.5$
対立仮説 $H_1$主張したい本命$\neq,\ >,\ <$ で範囲を指定$p \neq 0.5$

なぜ主張したいほうではなく、わざわざ否定したいほうを「仮定」するのでしょうか。それは、$H_0$ が「ただ1つの値」を指定しているからです。$p=0.5$ と決まれば、コインを投げた結果がどう散らばるかを正確に計算できます。一方 $p \neq 0.5$ は $0.5$ 以外のすべて(無限の可能性)なので、確率計算の出発点に使えません。計算できるほうを仮定する──これが帰無仮説を主役に置く理由です。

3. 有意水準 $\alpha$ ── 「珍しすぎる」の境界線

論理の②で「確率が小さすぎるなら」と言いました。ではどれくらい小さければ「小さすぎる」のでしょうか。この境界線を事前に決めておくのが有意水準です。

POINT

有意水準(ゆういすいじゅん、significance level)とは、「これより珍しければ $H_0$ を棄却する」と決めた確率の境界線のこと。記号は $\alpha$(アルファ)で表します。よく使うのは $\alpha=0.05$(5%)や $\alpha=0.01$(1%)です。

有意水準 $\alpha=0.05$ とは、ざっくり言えば「もし $H_0$ が本当に正しくても、20回に1回くらいは『珍しい結果』が偶然出てしまう」というラインを引くことです。それより珍しい結果が出たら「さすがに偶然とは思えない」と判断して $H_0$ を棄却します。

ここで大事な注意。$\alpha$ はデータを見る前に決めるのが鉄則です。結果を見てから「有意になるように $\alpha$ をいじる」のは、ゴールを後から動かすようなもの。検定としての意味を失ってしまいます。ちなみにこの $\alpha$、第3章の信頼区間と裏表の関係にあって、信頼度 $1-\alpha$ の区間とちょうど対応しています(3-5 区間推定の論理を参照)。

4. p値 ── 観測データの「珍しさ」を測る

有意水準が「境界線」なら、その線と比べる相手が必要です。それがp値です。仮説検定でいちばん誤解されやすい主役なので、定義を正確に押さえましょう。

POINT

p値(ピーち、p-value)とは、「$H_0$ が正しいと仮定したとき、実際に観測されたデータと同じか、それ以上に極端な結果が得られる確率」です。p値が小さいほど「$H_0$ のもとでは起こりにくい結果だった=$H_0$ が怪しい」ことを意味します。

コインの例で言えば、「公平($p=0.5$)だと仮定したとき、観測された表の回数くらい(またはそれ以上)に偏った結果が出る確率」がp値です。10連続表ならp値はとても小さく、「公平にしては珍しすぎる」と数値で示してくれます。

p値と有意水準の比べ方

判定はとてもシンプルで、p値と $\alpha$ を比べるだけです。

FORMULA

$$ \begin{aligned} \text{p値} \le \alpha &\ \Longrightarrow\ H_0 \text{ を棄却}\ (H_1 \text{ を採用})\\[2pt] \text{p値} > \alpha &\ \Longrightarrow\ H_0 \text{ を棄却できない} \end{aligned} $$ 観測データが「境界線より珍しい($\le \alpha$)」なら棄却、というだけの関係です。

下の図は、このイメージをまとめたものです。$H_0$ が正しいときに検定統計量が従う分布を描き、両端の塗った部分(合わせて面積 $\alpha$)が棄却域。観測値がそこに落ちる確率がp値で、p値が $\alpha$ 以下なら「珍しすぎる」とみなして $H_0$ を棄却します。

観測値 帰無値 採択域 棄却域 棄却域 面積の合計 = α H_0 が正しいときの分布と棄却域

$H_0$ が正しいときの検定統計量の分布。両端の赤い部分(合計の面積が $\alpha$)が棄却域。観測値がそこに入る=p値が $\alpha$ 以下=棄却

5. 検定の手順 ── 5ステップ

ここまでの道具(②帰無・対立仮説、③有意水準、④p値)を、決まった順番に並べたものが検定の手順です。試験でも実務でも、この5ステップに沿えば迷いません。

① 仮説を立てる
否定したい前提を $H_0$、主張したいことを $H_1$ として、はっきり書き分けます。

② 有意水準 $\alpha$ を決める
データを見る前に。慣例では $\alpha=0.05$ が標準です。

③ 検定統計量を計算する
標本データを、$H_0$ のもとで分布がわかる量(標準化した $z$ 値など)に変換します。どんな統計量を使うかは 4-3 以降でじっくり扱います。

④ p値(または棄却域)を求める
$H_0$ のもとで、その統計量が観測値以上に極端になる確率がp値。あるいは先に $\alpha$ に対応する棄却域を決めておく方法もあります。

⑤ 判定する
p値 $\le \alpha$(統計量が棄却域に入る)なら $H_0$ を棄却し $H_1$ を採用。そうでなければ $H_0$ を棄却できない、と結論します。

5ステップを実際に回す

EXAMPLE(コインは公平か)

あるコインを100回投げたら、表が60回出ました。このコインは公平と言えるでしょうか。有意水準 $\alpha=0.05$ で検定します。

① 仮説:$H_0:\ p=0.5$(公平)、$H_1:\ p\neq 0.5$(公平でない)。方向を問わないので両側検定です。

② 有意水準:$\alpha=0.05$。

③ 検定統計量:$H_0$($p_0=0.5$)が正しいとき、標本比率 $\hat{p}$ の標準偏差は $\sqrt{\dfrac{p_0(1-p_0)}{n}}=\sqrt{\dfrac{0.5\times 0.5}{100}}=0.05$。観測値 $\hat{p}=\dfrac{60}{100}=0.6$ を標準化して $$z=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}=\frac{0.6-0.5}{0.05}=2.0$$

④ p値:両側なので $\text{p値}=2\times P(Z>2.0)=2\times 0.0228 \approx 0.0455$。

⑤ 判定:$\text{p値}\approx 0.0455 \le 0.05=\alpha$ なので、$H_0$ を棄却。「このコインは公平でないと言える」が結論です(ただしギリギリの判定で、もし表が55回なら $z=1.0$、p値 $\approx 0.317$ で棄却できませんでした)。

さえちゃん
さえ

表60回で $z=2.0$、p値はだいたい $0.0455$。$0.05$ にほんのちょっとだけ届いてるから棄却、というギリギリの例だよ。「60回も出たら絶対イカサマ!」ってほど派手じゃないんだね。検定は境界線との大小くらべなんだって実感できる、いい例だと思う!

6. p値の誤解に注意

p値はとても便利ですが、その分だけ誤解も多い指標です。試験でも狙われやすいので、よくある勘違いを正面から整理しておきます。

誤解1:p値は「$H_0$ が正しい確率」ではない

これが最大の誤解です。p値は「$H_0$ が正しいと仮定したうえで、こんなデータが出る確率」であって、「$H_0$ が正しい確率」ではありません。順序が逆なのです。たとえば $\text{p値}=0.0455$ は「コインが公平である確率が4.55%」という意味では決してありません。あくまで「公平だと仮定したら、こういう偏りは4.55%しか起きない」という条件付きの確率です。

誤解2:「棄却できない」は「$H_0$ が正しい」ではない

p値 $>\alpha$ で $H_0$ を棄却できなかったとき、「$H_0$ が正しいと証明された」と言ってはいけません。正しい解釈は「現時点のデータでは、$H_0$ を否定する証拠が足りなかった」。データが少ない、効果が小さい、といった理由で否定しきれなかっただけかもしれません。裁判の「証拠不十分」と「無罪確定」が違うのと同じです。

誤解3:有意 $\neq$ 重要

p値が小さく「統計的に有意」と出ても、それが実用上「重要」とは限りません。標本サイズ $n$ が大きいと、ごくわずかな差でも有意になりがちだからです。「有意かどうか」は数字の話、「重要かどうか」は中身の話。分けて考えるのが、統計を学んだ人の見方です。

POINT

p値の正しい読み方は「$H_0$ を仮定したときの、データの珍しさ」の一点に尽きます。「$H_0$ が正しい確率」でも、「効果の大きさ」でもありません。この区別さえ守れば、p値はとても頼れる相棒になります。

まとめ

第4章 4-1、ポイントを整理します。

次回 4-2 片側・両側検定と2種類の誤り では、棄却域を左右どちらに置くか(片側・両側)と、検定が必ず抱える2種類の誤り──第1種の誤り($\alpha$)と第2種の誤り($\beta$)──を、$H_0$ と $H_1$ の分布を重ねた図で塗り分けながら見ていきます。

さえちゃん
さえ

仮説検定の骨組み、つかめたかな? $H_0$ を仮定 → 珍しさをp値で測る → $\alpha$ と比べて判定、の流れが今日のキモ。特に「p値は $H_0$ が正しい確率じゃない」は、何度でも言いたいくらい大事! 次は誤りの話、いよいよ検定の奥が見えてくるよ!