第3章 3-4 / 統計の基礎

推定と検定

このページで学ぶこと

このページは、DS検定を学ぶ多くの人がもっともつまずきやすい「推定と検定」を扱います。点推定と区間推定の違い帰無仮説と対立仮説第1種の過誤・第2種の過誤とp値・有意水準の関係片側検定と両側検定の使い分け、そしてt検定・z検定などの選び方まで、他のページよりも一段階ゆっくりとしたペースで、順番に整理していきます。

難しく感じたら、一度に全部を理解しようとせず、1つのセクションを読んで具体例で納得してから次に進んでください。ここで足踏みしても構いません。それくらい重要で、かつ誰もが最初はつまずくテーマです。

1. なぜ「推定」が必要なのか

3-1で学んだとおり、私たちが本当に知りたい対象の全体を母集団、実際に手に入るデータを標本と呼びます。全国の消費者すべてにアンケートを取ることは現実的でないため、私たちはいつも標本というごく一部の情報から、母集団全体の姿を推し量らなければなりません。この「一部から全体を推し量る」作業が統計的推測※1であり、その中心にあるのが推定検定という2つの技術です。

推定は「母集団の値(母平均や母比率など)がいくつくらいか」を標本から見積もる作業、検定は「ある仮説(母集団についての主張)が正しいと言えそうか」を標本のデータで判断する作業です。どちらも、標本という限られた情報から、目に見えない母集団の姿に迫るための道具である、という共通点を頭に置いておいてください。

2. 点推定と区間推定 ― 1点で答えるか、幅で答えるか

母集団の値を標本から見積もる方法には、大きく分けて2通りのアプローチがあります。

点推定は、母集団の値をただ1つの数値で見積もる方法です。たとえば、100人の顧客にアンケートを取り、平均満足度が3.8点だったとします。このとき、「母集団(全顧客)の平均満足度もおそらく3.8点くらいだろう」と1つの値で答えるのが点推定です。標本平均をそのまま母平均の推定値として使う、ということです。

一方、区間推定は、母集団の値が「どのくらいの幅の範囲に入っていそうか」を区間(幅)で見積もる方法です。先ほどの例であれば、「母集団の平均満足度は、95%の信頼度で3.6点〜4.0点の範囲に入っている」というように、1点ではなく幅で答えます。この幅のことを信頼区間※2と呼びます。

方法答え方具体例
点推定1つの値で答える「平均満足度は3.8点です」
区間推定幅(信頼区間)で答える「平均満足度は95%の信頼度で3.6〜4.0点です」

なぜ区間推定が重要なのでしょうか。点推定の「3.8点」という数字は、たまたま抽出された100人からの見積もりに過ぎず、別の100人を選んでいれば違う値になっていたはずです。つまり、点推定の値には必ず不確実性(誤差)が伴います。区間推定は、この不確実性の大きさそのものを幅として明示することで、「どれくらい自信を持ってこの推定値を信じてよいか」を伝えることができます。標本サイズが大きいほど、あるいはデータのばらつきが小さいほど、この信頼区間の幅は狭くなり、推定の精度が高いことを表します。

POINT

点推定と区間推定の違いを理解し、推定における不確実性を評価する上での区間推定の重要性を説明できることがDS検定のスキルチェック項目です。「1点だけの答えは、必ず誤差を含んでいる」という前提を持ち、区間推定でその誤差の大きさまで示すことの価値を押さえておきましょう。

さえちゃん
さえ

「平均3.8点です」だけ聞くとすごく確実に聞こえるけど、それって100人だけのデータから出した数字。「3.6〜4.0点の幅がありますよ」って言われた方が、実は誠実な報告なんだよね。

3. 仮説検定の考え方 ― 帰無仮説と対立仮説

推定が「値そのものを見積もる」作業だったのに対し、仮説検定は「ある主張(仮説)が正しそうかどうかを、データを使って判断する」作業です。仮説検定は少し回りくどい論理構造をしているので、ここで一歩ずつ整理します。

仮説検定では、まず2つの仮説を用意します。

EXAMPLE ― ECサイトのボタン色変更
  • 「購入ボタンの色を赤から緑に変えたら、購入率が上がるのではないか」という仮説を検証したいとします
  • 帰無仮説H₀「ボタンの色によって購入率に差はない」
  • 対立仮説H₁「ボタンの色によって購入率に差がある」
  • 本当に確かめたいのはH₁ですが、検定の手続き上は、まずH₀を否定できるかどうかを調べる、という回りくどい進め方をします

なぜわざわざ回りくどく「否定したい仮説」を先に立てるのでしょうか。それは、「差がある」ことを直接証明するのは難しくても、「差がないと仮定した場合に、今回のデータのような結果が起こる確率がどのくらい低いか」は計算できるからです。仮説検定は、「もし帰無仮説が正しいなら、今回観測されたデータは相当珍しいはずだ。だから帰無仮説を疑おう」という背理法に似た論理で組み立てられています。

POINT

帰無仮説と対立仮説の違いを説明できることがDS検定のスキルチェック項目です。帰無仮説は「差なし・効果なし」を基準として置く仮説、対立仮説は「差あり・効果あり」という本当に主張したい仮説、という役割の違いを押さえておきましょう。

4. p値と有意水準 ― 「珍しさ」をどう判断するか

帰無仮説が正しいと仮定したときに、実際に観測されたデータ(あるいはそれ以上に極端なデータ)が起こる確率のことをp値※3と呼びます。p値が小さいほど、「帰無仮説が正しいとすると、今回のような結果はめったに起こらないはずなのに、実際に起きてしまった」ということになり、帰無仮説を疑う根拠が強くなります。

では、p値がどれくらい小さければ「帰無仮説を疑ってよい」と判断するのでしょうか。この判断基準となる境界の確率を有意水準(α)※4と呼びます。有意水準は分析を始める前にあらかじめ決めておく値で、慣習的に5%(0.05)や1%(0.01)がよく使われます。p値が有意水準を下回った場合、「統計的に有意な差がある」として帰無仮説を棄却し、対立仮説を採用します。逆にp値が有意水準を上回った場合は、帰無仮説を棄却できず、「差があるとは言い切れない」という判断になります。

EXAMPLE ― p値による判定
  • 有意水準をあらかじめ5%と決めておく
  • ボタンの色変更のテストの結果、p値=0.02だったとする → 0.02<0.05なので「統計的に有意な差がある」と判断し、帰無仮説を棄却
  • 別のテストでp値=0.32だったとする → 0.32>0.05なので帰無仮説を棄却できず、「今回のデータでは差があるとは言えない」と判断
POINT

p値は「その差がどれくらい大きいか」を表す指標ではなく、「帰無仮説のもとでこのデータが起こる確率」です。有意水準はその確率をどこで線引きするかという「事前に決めておく」基準であり、データを見てから都合よく調整してはいけません。

さえちゃん
さえ

「帰無仮説を棄却できない」=「差がなかったと証明された」じゃないから注意してね。「今回のデータだけでは、差があるとまでは言い切れなかった」ってだけの意味。この違い、試験でもよく狙われるよ!

5. 判断の誤り ― 第1種の過誤と第2種の過誤

仮説検定は、あくまで確率にもとづく判断であるため、必ず一定の確率で判断を誤るリスクを抱えています。この誤りには2種類あり、DS検定でも頻出のポイントです。

過誤の種類内容身近な例え起こる確率
第1種の過誤(あわてんぼうの誤り)本当は帰無仮説が正しい(差がない)のに、誤って棄却してしまう(差があると判断してしまう)誤り無実の人を有罪と判断してしまう有意水準α
第2種の過誤(ぼんやりの誤り)本当は対立仮説が正しい(差がある)のに、帰無仮説を棄却できない(差があるとは言えないと判断してしまう)誤り有罪の人を無罪と判断してしまうβ(記号で表す)

重要なのは、第1種の過誤を起こす確率が、まさに有意水準αそのものであるという関係です。有意水準を5%に設定するということは、「本当は差がないのに、差があると誤って判断してしまう確率を5%まで許容する」と決めていることに等しいのです。有意水準を厳しく(小さく)設定すれば、第1種の過誤は減らせますが、その代わり本当に差があるものを見逃してしまう第2種の過誤が増えやすくなる、というトレードオフの関係にあります。

POINT

第1種の過誤、第2種の過誤と、p値・有意水準の意味、およびこれらの相互関係を説明できることがDS検定のスキルチェック項目です。「有意水準=第1種の過誤を起こす確率」「p値が有意水準を下回れば帰無仮説を棄却」という2つの関係を、まずセットで覚えてください。

6. 片側検定と両側検定

対立仮説の立て方によって、検定は両側検定片側検定の2種類に分かれます。

対立仮説が「差がある(≠)」のように、方向を問わない場合は両側検定を使います。「ボタンの色を変えると購入率が上がるか下がるかはわからないが、とにかく差があるかを知りたい」というような場面です。一方、対立仮説が「効果がある(方向つきで大きい、または小さい)」のようにあらかじめ方向が決まっている場合は片側検定を使います。「新しい施策は、従来より購入率を上げる効果しか想定していない」というような場面です。

EXAMPLE ― 片側検定と両側検定の使い分け
  • 「新しい教材で学習した生徒の成績は、従来の教材と比べて違うのか」を知りたい → 両側検定(上がるか下がるか分からないが差を見たい)
  • 「新しい薬は、既存薬より効果が高いといえるか」だけを確かめたい → 片側検定(悪化する可能性は最初から想定していない)

片側検定は、あらかじめ方向を決めておく分、同じ有意水準でも両側検定より「差あり」と判定されやすくなります(棄却域が片側に集中するため)。そのため、方向性を決め打ちする根拠が乏しいのに片側検定を都合よく選んでしまうと、本来なら有意でない結果を有意と誤認するリスクが高まります。「本当に方向が決まっている場面かどうか」を、データを見る前に慎重に判断することが大切です。

POINT

片側検定と両側検定の違いを理解し、適切に使い分けられることがDS検定のスキルチェック項目です。対立仮説に方向性があるかどうかで判断してください。

7. 検定手法の選び方 ― t検定とz検定、対応の有無

最後に、実際にどの検定手法を選べばよいかを整理します。DS検定でよく登場するのがt検定z検定です。どちらも「2つの平均に差があるか」を調べる代表的な検定ですが、使い分けの基準があります。

さらに、比較する2つのデータの間に対応があるかどうかによっても、使う検定手法が変わります。対応のあるデータ※5とは、同じ対象を条件を変えて2回測定したデータのこと(例: 同じ社員の研修前後のテストの点数)です。対応のないデータとは、まったく別々の対象から取った2つのグループのデータのこと(例: A店とB店それぞれ異なる顧客の購入額)です。

状況対応の有無使う検定の例
同じ社員の研修前・研修後の点数を比較対応あり(同一人物を2回測定)対応のあるt検定
A店とB店、別々の顧客の購入額を比較対応なし(別々の対象)対応のないt検定(等分散性の確認も必要)
母標準偏差が判明している大規模調査データの平均を比較状況によるz検定

対応のあるデータでは、個体差(そもそもの実力の差など)の影響を除いて「変化量」だけに注目できるため、対応のない検定より少ないデータでも差を検出しやすいという特徴があります。データを集める前に、「これは同じ対象を繰り返し測ったものか、別々の対象を比べるものか」を意識しておくことが、正しい検定手法を選ぶ第一歩です。

POINT

データの対応の有無を考慮した上で適切な検定手法(t検定、z検定など)を選択し、適用できることがDS検定のスキルチェック項目です。「母標準偏差が分かっているか」「同じ対象を繰り返し測ったデータか」の2点を必ず確認してから検定手法を選びましょう。

さえちゃん
さえ

「対応あり・なし」を見落として検定手法を間違えるのは、本当によくあるひっかけポイント。「同じ人・同じお店を繰り返し測ったかどうか」を、データを見た瞬間にまず確認するクセをつけよう!

まとめ

推定と検定は、初学者がもっともつまずきやすいテーマです。ここまでの内容を、もう一度短くまとめておきます。

  1. 点推定と区間推定 ― 点推定は1つの値、区間推定は幅(信頼区間)で母集団の値を見積もる。区間推定は不確実性を明示できる点で重要
  2. 帰無仮説と対立仮説 ― 帰無仮説は「差なし」を基準として置く仮説、対立仮説は本当に主張したい「差あり」の仮説
  3. p値と有意水準 ― p値は「帰無仮説のもとでこのデータが起こる確率」、有意水準はその判断の境界線。p値が有意水準を下回れば帰無仮説を棄却する
  4. 第1種・第2種の過誤 ― 第1種は「本当は差がないのに、あると判断してしまう誤り」(確率=有意水準α)、第2種は「本当は差があるのに、ないと判断してしまう誤り」
  5. 片側検定と両側検定 ― 対立仮説に方向性があるかどうかで使い分ける
  6. t検定とz検定、対応の有無 ― 母標準偏差が既知か・標本サイズ・データの対応の有無によって、適切な検定手法を選ぶ

一度読んだだけで完全に理解できなくても心配いりません。次のページ「3-5. 仮説検証と洞察」では、ここで学んだ推定・検定の考え方を、実際のビジネスの分析結果からどう「意味合い」を引き出すかという実践に応用していきます。手を動かしながら、少しずつ慣れていきましょう。

脚注 ─ 用語解説
  1. 統計的推測 … 標本のデータから、母集団全体の性質(母平均や母比率など)を推し量ること。推定と検定の総称。
  2. 信頼区間 … 母集団の値がその範囲に含まれるであろうと推定される幅のこと。「95%信頼区間」は、同じ手順で標本抽出を繰り返した場合に、95%の確率でその区間が真の値を含むことを意味する。
  3. p値 … 帰無仮説が正しいと仮定したときに、実際に観測されたデータ以上に極端な結果が起こる確率のこと。
  4. 有意水準(α) … 帰無仮説を棄却するかどうかを判断する基準となる確率。慣習的に5%や1%が使われる。
  5. 対応のあるデータ … 同じ対象を条件を変えて複数回測定したデータのこと。個体差の影響を除いて変化量に注目できる。