正規分布の確率計算
いよいよ第7章のラストです。前回までで二項分布と正規分布の形と性質を学びました。今回はその応用編、正規分布から確率を実際に計算する方法を整理します。
本ページのキーワードは3つ。標準正規分布表(試験で使われる分布表の読み方)、Excel関数 NORM.S.DIST(実務で使う計算法)、一般の正規分布の確率(標準化を使った計算)、そして二項分布の正規近似です。
確率計算は、「曲線の下の面積を求める」という発想が肝心。SVG図で何度もこのイメージを確認しながら進めます。
第7章ラスト! ここは確率計算という具体的な作業だから、手を動かして覚えるのがコツ! Excelも使うから、講座を読んだあとは実際にExcelで計算してみてね! 体で覚えると忘れないよ!
1. 標準正規分布の確率 ─ 「面積」で考える
連続型確率変数では、「特定の値を取る確率」には意味がなく、「ある範囲に入る確率」を考えるのでした(7-1)。これは正規分布でも同じ。曲線の下の面積がそのまま確率になります。
例:Z ≤ 1.5 の確率
標準正規分布 N(0, 1) で、Z が 1.5 以下になる確率を求めることを考えます。これは曲線の左から Z = 1.5 までの面積です。
P(Z ≤ 1.5) = 曲線の左から Z=1.5 までの面積 ≒ 0.9332
標準正規分布表とは
この面積(確率)の値は、標準正規分布表であらかじめ計算されています。試験では問題用紙にこの表が添付されるので、表から値を読み取ります。
試験で使われる標準正規分布表は、多くの場合 P(0 ≤ Z ≤ z)(中央 0 から z までの面積)が記載されています。これは標準正規分布が左右対称なので、右半分の面積さえわかれば全体が計算できるからです。
標準正規分布表の使い方(基本)
よく出てくる値を表で確認しておきましょう。
| z | 0.5 | 1.0 | 1.5 | 1.96 | 2.0 | 2.5 | 3.0 |
|---|---|---|---|---|---|---|---|
| P(0 ≤ Z ≤ z) | 0.1915 | 0.3413 | 0.4332 | 0.4750 | 0.4772 | 0.4938 | 0.4987 |
4つの典型計算パターン
標準正規分布表を使った計算には、4つの典型パターンがあります。すべて「対称性」と「左半分は0.5」の2つを使えば求められます。
① P(0 ≤ Z ≤ a) → 表から直接読む
例:P(0 ≤ Z ≤ 1.5) = 0.4332
② P(Z ≤ a) → 0.5 + 表の値(aが正の場合)
例:P(Z ≤ 1.5) = 0.5 + 0.4332 = 0.9332
③ P(Z ≥ a) → 0.5 − 表の値(aが正の場合)
例:P(Z ≥ 1.5) = 0.5 − 0.4332 = 0.0668
④ P(a ≤ Z ≤ b) → 表の値の引き算(同符号の場合)/ 足し算(異符号の場合)
例:P(0.5 ≤ Z ≤ 1.5) = 0.4332 − 0.1915 = 0.2417
標準正規分布表を使う問題は、釣鐘曲線の絵を描いて「どこの面積か」を確認するのが間違い防止のコツ。「足すのか引くのか」「0.5を加えるのか減らすのか」が、図を描けばすぐわかります。
2. Excelで確率を計算する ─ NORM.S.DIST関数
実務では、標準正規分布表を見るより、Excelの関数のほうが圧倒的に楽です。3級の試験では分布表を使いますが、計算の理解を深めるためにExcelも触れておきましょう。
NORM.S.DIST関数の基本
=NORM.S.DIST(z, TRUE)
標準正規分布で P(Z ≤ z) を返す
(S = Standard、関数名は「ノルム・スタンダード・ディスト」と読みます)
第2引数に TRUE を入れることで、累積確率(左からの面積)が返ります。FALSE を入れると密度の値(曲線の高さ)が返るので、3級では基本 TRUE を使うと覚えてください。
使用例
| 求めたい確率 | Excel式 | 結果 |
|---|---|---|
| P(Z ≤ 1.5) | =NORM.S.DIST(1.5, TRUE) | 0.9332 |
| P(Z ≤ -1) | =NORM.S.DIST(-1, TRUE) | 0.1587 |
| P(Z ≤ 1.96) | =NORM.S.DIST(1.96, TRUE) | 0.9750 |
| P(Z ≥ 2) | =1-NORM.S.DIST(2, TRUE) | 0.0228 |
| P(-1 ≤ Z ≤ 1) | =NORM.S.DIST(1,TRUE)-NORM.S.DIST(-1,TRUE) | 0.6827 |
| P(-2 ≤ Z ≤ 2) | =NORM.S.DIST(2,TRUE)-NORM.S.DIST(-2,TRUE) | 0.9545 |
最後の P(-1 ≤ Z ≤ 1) ≒ 0.6827 と P(-2 ≤ Z ≤ 2) ≒ 0.9545 は、前回学んだ68-95-99.7ルールの正確な値です。「約68%」「約95%」とは、ここから来ていたんですね。
Excelで NORM.S.DIST を覚えておけば、標準正規分布の確率はいくらでも計算できます。負の値もそのまま入れられるので、表を使うより断然便利です。試験では分布表を使うのが基本ですが、実務での計算はExcelに任せましょう。
3. 一般の正規分布の確率 ─ 標準化を使う
確率を求めたい正規分布が N(0, 1) ではない一般の正規分布のときは、標準化(7-3で学習)を使います。
計算の流れ
- 確率変数 X を標準化:Z = (X − μ) / σ
- 知りたい範囲を、Z の範囲に変換
- 標準正規分布の確率として求める
具体例:身長の問題
日本人男性の身長が N(170, 36) (μ=170cm、σ=6cm)に従うとします。身長が176cm以上の人の割合を求めてください。
解答
X を身長として、求めたいのは P(X ≥ 176)。標準化のステップを順に進めます。
ステップ1:標準化
X = 176 を Z に変換します。
Z = (176 − 170) / 6 = 1.0
ステップ2:Z の範囲に変換
X ≥ 176 は Z ≥ 1.0 と同じこと。
ステップ3:確率を求める
P(Z ≥ 1.0) = 0.5 − P(0 ≤ Z ≤ 1.0) = 0.5 − 0.3413 = 0.1587(約15.87%)
日本人男性のうち、身長176cm以上の人は約16%です。前回 7-3 で「Lサイズの会員は約16%」と計算したのと一致しますね。
Excelで一発計算
Excelでは、わざわざ標準化しなくても、NORM.DIST関数を使えば一発で計算できます。
=NORM.DIST(x, μ, σ, TRUE)
正規分布 N(μ, σ²) で P(X ≤ x) を返す
(関数名は「ノルム・ディスト」、S(Standard)が抜けているのがポイント)
先ほどの身長の例なら:
P(X ≥ 176) = 1 − P(X ≤ 176) = =1 - NORM.DIST(176, 170, 6, TRUE) ≒ 0.1587
標準化なしで、いきなり結果が出ます。第3引数は標準偏差(σ)で、分散(σ²)ではないので注意してください。
試験では標準化して標準正規分布表を使う、実務では NORM.DIST 関数で一発計算──場面で使い分けられると最強です。
4. 二項分布の正規近似
最後に、前回 7-3 の最後で予告した二項分布の正規近似です。
正規近似とは
二項分布 B(n, p) で n が大きいとき、その分布は正規分布で近似できます。
n が十分大きいとき、
B(n, p) ≒ N(np, np(1-p))
期待値 np と分散 np(1-p) を持つ正規分布で、二項分布の確率が近似できる、ということです。直接計算が大変な二項分布の問題が、正規分布の確率計算に置き換わる──これが正規近似の威力です。
具体例:コイン100回投げ
コインを100回投げて、表が出る回数 X を考えます。X が二項分布 B(100, 0.5) に従うとき、X が60以上になる確率を求めてください(正規近似を使います)。
解答
ステップ1:近似する正規分布を決める
- 期待値:np = 100 × 0.5 = 50
- 分散:np(1-p) = 100 × 0.5 × 0.5 = 25
- 標準偏差:σ = √25 = 5
- 近似する分布:N(50, 25) (μ=50, σ=5)
ステップ2:標準化
Z = (60 − 50) / 5 = 2.0
ステップ3:確率を求める
P(X ≥ 60) ≒ P(Z ≥ 2.0) = 0.5 − 0.4772 = 0.0228(約2.28%)
コインを100回投げて、表が60回以上出るのは約2.28%(50回に1回くらい)。意外とレアなことだとわかりますね。
Excelでも確認
Excelで NORM.DIST を使って同じ計算をしてみると:
=1 - NORM.DIST(60, 50, 5, TRUE) ≒ 0.0228
ぴったり一致します。直接二項分布で計算した正確な値は約0.0284なので、正規近似の精度はかなり高いことがわかります(誤差は0.0056ほど)。
二項分布の正規近似は、n が大きく、p が0.5に近いほど精度が良くなる。3級の問題では、近似で計算するか、二項分布の式で直接計算するか、問題の指示に従うのが大事です。
5. 第7章を終えて
第7章「確率変数と確率分布」、おつかれさまでした。最後に章全体を俯瞰しておきましょう。
| 節 | テーマ | 身につけた力 |
|---|---|---|
| 7-1 | 確率変数と確率分布の考え方 | 確率変数という抽象概念、離散型と連続型の区別 |
| 7-2 | 平均・分散・標準偏差 | 期待値、分散、aX+bの線形変換 |
| 7-3 | 二項分布と正規分布 | 2大分布の形と性質、68-95-99.7ルール |
| 7-4 | 本ページ | 標準正規分布表、Excel関数、正規近似 |
記述統計から確率分布へ
第1〜5章では「目の前のデータをどう要約するか」という記述統計を学び、第6章で確率の世界に入り、そして第7章で確率変数と確率分布に到達しました。確率変数と確率分布の発想は、データを「単なる数字の集まり」ではなく「ばらつきを持つ確率的な存在」として捉える視点を与えてくれます。
この視点こそが、現代のデータサイエンス・機械学習・AIの土台。3級の学習を通して、データを確率的に考える基礎体力を身につけたと言えます。
CHAPTER 7 完了!
第7章「確率変数と確率分布」、ここで完了です。
次は第8章「データの収集」です。第8章はデータの集め方を扱う実用的な章で、クールダウン的に読み進めることができると思います。
第7章コンプリート、本当におつかれさまでした! 確率変数・期待値・正規分布・標準化・正規近似──ここは何度も読み返してみてください。感覚をつかむまで時間がかかる章です。読み返した回数分、理解も定着すると思います!