確率と確率分布
前ページ「3-1. データを要約する」では、統計数理基礎14項目のうち記述統計系を扱いました。本ページ(3-2)では、残りの確率・確率分布系を担当します。順列・組合せ(nPr・nCr)、確率の基本概念(確率・条件付き確率・期待値・独立)、ベイズの定理、標準正規分布、代表的な確率分布、二項分布の正規近似まで、まとめて整理していきます。
確率は「不確実なことをどう扱うか」の土台となる考え方です。数式だけを丸暗記するのではなく、「なぜそうなるのか」のイメージをつかむことを意識して読み進めてください。
1. 場合の数を数える ― 順列と組合せ
確率を計算する土台として、まず「起こりうるパターンの数」を正しく数える技術が必要です。これが順列※1と組合せ※2です。
順列(nPr)は、n個のものからr個を選んで順番も区別して並べる場合の数です。「1位・2位・3位を決める」ように、選ぶ順序に意味がある場面で使います。組合せ(nCr)は、n個のものからr個を選ぶ場合の数ですが、順番は区別しません。「5人から3人の代表チームを選ぶ」ように、選んだ後の並び順に意味がない場面で使います。
nPr = n × (n−1) × (n−2) × … × (n−r+1)(nからr個を順に掛ける)
nCr = nPr ÷ r!(順列の結果を、r個の並べ方の数 r! で割って「順番の重複」を消す)
- 5人の候補者から「社長・副社長」の2役を決める → 役職の区別があるので順列(5P2=20通り)
- 5人の候補者から「役員2名」を選ぶ(役職の区別なし) → 順序を問わないので組合せ(5C2=10通り)
- 10種類の商品から3種類を選んでセット販売する(並べ方は関係ない) → 組合せ(10C3=120通り)
見分け方のコツは、「選んだあとに、順番や役割の違いが結果に影響するか」を自分に問いかけることです。影響するなら順列、影響しないなら組合せです。
順列(nPr)と組合せ(nCr)を理解し、適切に使い分けられることがDS検定の必須項目です。「順番を区別するか」がすべての判断基準になります。
「順列か組合せか迷ったら、順番を入れ替えたら意味が変わるかを考える」。これだけ覚えておけば、本番でも迷わないはず!
2. 確率の基本概念 ― 確率・条件付き確率・期待値・独立
確率とは、ある事象がどれくらい起こりやすいかを0〜1の数値で表したものです。全事象の確率の合計は必ず1になり、決して起こらない事象の確率は0です。
条件付き確率は、「ある事象が起きたという情報を得たうえで、別の事象が起こる確率」のことです。たとえば「雨が降っている」という情報を得ると、「傘を持っている人に出会う確率」は、情報を得る前より高く見積もれます。条件付き確率は、情報を得ることで確率の見積もりが更新される、という考え方の基本になります。
独立は、2つの事象が互いに影響を与えない関係のことです。片方の事象が起きたかどうかを知っても、もう片方の事象の確率がまったく変わらないとき、その2つの事象は独立であるといいます。コインを2回投げるとき、1回目の結果は2回目の結果に一切影響しません。これが独立の典型例です。ここで注意したいのは、「排反(同時に起こらない)」と「独立」はまったく別の概念だという点です。排反な事象は、片方が起きればもう片方が絶対に起きないとわかるという意味で、むしろ強く影響し合っており、独立ではありません。
期待値は、確率変数が平均的にどんな値を取るかを表す指標で、「値×その値が出る確率」をすべて足し合わせて求めます。宝くじの当選金額や、施策の効果を金額換算するときなど、不確実な結果を1つの代表値にまとめたいときに使われます。
| 概念 | 意味 | 具体例 |
|---|---|---|
| 確率 | 事象の起こりやすさを0〜1で表す | サイコロで1が出る確率は1/6 |
| 条件付き確率 | ある情報を得たうえでの確率 | 雨天という条件下で傘を持つ人に会う確率 |
| 期待値 | 確率変数が平均的に取る値 | くじの当選金額の期待値 |
| 独立 | 片方の結果がもう片方に影響しない | 2回のコイントスの結果同士 |
確率、条件付き確率、期待値、独立などの基本概念の意味を説明できることがDS検定の必須項目です。特に「独立」と「排反」の違いは頻出の混同ポイントなので、明確に区別しておきましょう。
3. ベイズの定理 ― 情報を得て確率を更新する
ベイズの定理※3は、条件付き確率の考え方を発展させ、「結果から原因を推測する」ための定理です。新しい情報(データ)を得たときに、それまでの確率の見積もりをどう更新すればよいかを教えてくれます。
P(A|B) = P(B|A) × P(A) ÷ P(B)
P(A)は情報を得る前の「事前確率」、P(A|B)はBという情報を得た後の「事後確率」です。P(B|A)は「Aが起きたときにBが起きる確率」で、これを逆向きにしてP(A|B)を求めるのがベイズの定理の本質です。
- ある病気の有病率(事前確率)は1%、検査の感度(病気の人が正しく陽性になる確率)は90%、健康な人が誤って陽性になる確率(偽陽性率)は5%とします
- 「検査で陽性が出た人が、本当に病気である確率」を計算すると、直感的には90%近くありそうに感じますが、ベイズの定理で計算すると実際には15%程度にしかなりません
- これは、病気でない人(99%)の集団からも偽陽性が一定数出るため、母数が大きい「健康な人の偽陽性」が、少数派の「病気の人の真陽性」を数の上で上回ってしまうためです
このように、事前確率(もともとの発生率)が低い事象では、検査の精度が高くても、陽性=病気とは限らないという直感に反する結果が起こります。ベイズの定理は、医療診断だけでなく、迷惑メールの判定、需要予測の更新など、幅広い場面で「新しいデータを得るたびに確率の見積もりを更新する」考え方の基礎になっています。
ベイズの定理を説明できることがDS検定の必須項目です。「事前確率×新しい情報の起こりやすさ÷その情報全体の起こりやすさ=事後確率」という更新の流れをイメージで押さえておきましょう。
「検査で陽性=即病気」と思っちゃうのが人間の直感。でも、めったに起きない病気ほど、この直感は裏切られやすいんだよね。10,000人で考えるとイメージしやすいよ!
4. 代表的な確率分布
確率分布とは、確率変数が取りうる値と、それぞれの値が出る確率(または確率密度)の対応関係を表したものです。DS検定では、代表的な確率分布を5つ以上説明できることが求められます。
| 確率分布 | 特徴 | 具体例 |
|---|---|---|
| 一様分布 | どの値も同じ確率で起こる | サイコロの出目、乱数生成 |
| ベルヌーイ分布 | 成功か失敗かの1回だけの試行 | 1回のコイントスで表が出るか |
| 二項分布 | 成功確率pの試行をn回繰り返したときの成功回数 | コインをn回投げたときの表の回数 |
| ポアソン分布 | 一定時間・空間内にまれな事象が起こる回数 | 1時間あたりの窓口来客数、1日あたりの故障件数 |
| 正規分布 | 平均を中心に左右対称な釣鐘型の連続分布 | 身長・テストの点数など多くの自然現象 |
| 指数分布 | 次の事象が起こるまでの待ち時間 | 機械の故障間隔、窓口の待ち時間 |
これらの分布はそれぞれ「離散(飛び飛びの値)」か「連続(なめらかな値)」かという違いもあります。二項分布・ポアソン分布は離散型、正規分布・指数分布は連続型です。データの性質に合わせてどの分布を仮定するかを選ぶことが、統計モデリングの出発点になります。
5つ以上の代表的な確率分布を説明できることがDS検定の必須項目です。一様分布・ベルヌーイ分布・二項分布・ポアソン分布・正規分布・指数分布のうち、最低5つは特徴と具体例をセットで覚えておきましょう。
5. 標準正規分布と二項分布の正規近似
数ある確率分布の中でも、統計学でもっとも重要なのが正規分布です。中でも、平均が0、分散(および標準偏差)が1である正規分布のことを標準正規分布※4と呼びます。どんな平均・分散を持つ正規分布のデータも、「(値−平均)÷標準偏差」という標準化の計算(zスコア)によって、この標準正規分布に変換できます。
標準正規分布の平均は0、分散は1です。この2つの数値は、DS検定の必須スキルチェック項目として明記されているほど基本的かつ重要な知識なので、確実に覚えておきましょう。
正規分布には、「平均±標準偏差1個分の範囲に約68%、平均±標準偏差2個分の範囲に約95%、平均±標準偏差3個分の範囲に約99.7%のデータが収まる」という性質があり、外れ値の判断や信頼区間の計算に広く使われます。
ここで、確率分布どうしのつながりとして重要なのが、二項分布と正規分布の関係です。コインを10回投げたときの表の回数のような二項分布は、本来は離散的でギザギザした分布ですが、試行回数nが十分大きくなると、二項分布の形はなめらかな正規分布に近づいていきます。具体的には、成功確率pの試行をn回行う二項分布は、平均np・分散np(1−p)の正規分布で近似できることが知られています。
- 公正なコインを100回投げるとき、表の出る回数は二項分布B(100, 0.5)に従う
- 試行回数100は十分大きいので、平均50・分散25(標準偏差5)の正規分布で近似できる
- 「表が60回以上出る確率」のような計算も、正規分布の性質を使って近似的に求められる
二項分布は試行回数が増えていくと正規分布に近似されることを知っているのがDS検定の必須項目です。「離散的でギザギザな二項分布も、試行回数を増やせばなめらかな釣鐘型の正規分布に近づく」というイメージで押さえておきましょう。
二項分布と正規分布の関係は試験の頻出テーマ。「試行回数を増やすと正規分布に近づく」ってフレーズごと覚えておくと安心だよ!
まとめ
3-2では、統計数理基礎14項目のうち確率・確率分布系を整理しました。3-1と合わせて振り返っておきましょう。
- 順列と組合せ ― nPrは順番を区別する場合の数、nCrは順番を区別しない場合の数
- 確率の基本概念 ― 確率・条件付き確率・期待値・独立の意味。独立と排反は別物
- ベイズの定理 ― 事前確率を、新しい情報(データ)にもとづいて事後確率へ更新する定理
- 代表的な確率分布 ― 一様分布・ベルヌーイ分布・二項分布・ポアソン分布・正規分布・指数分布など
- 標準正規分布 ― 平均0、分散1の正規分布。あらゆる正規分布はzスコアでここに変換できる
- 二項分布の正規近似 ― 試行回数が増えると、二項分布は正規分布に近づいていく
これで3-1・3-2を合わせて、統計数理基礎の14項目をすべてカバーしました。次のページ「3-3. 相関と関係性の分析」では、相関係数の考え方をさらに発展させ、ヒストグラムやクロス集計表、散布図を使った実践的な関係性の把握方法を扱います。