第7章 7-4 / 確率変数と確率分布

正規分布の確率計算

このページで学ぶこと

いよいよ第7章のラストです。前回までで二項分布と正規分布の形と性質を学びました。今回はその応用編、正規分布から確率を実際に計算する方法を整理します。

本ページのキーワードは3つ。標準正規分布表(試験で使われる分布表の読み方)、Excel関数 NORM.S.DIST(実務で使う計算法)、一般の正規分布の確率(標準化を使った計算)、そして二項分布の正規近似です。

確率計算は、「曲線の下の面積を求める」という発想が肝心。SVG図で何度もこのイメージを確認しながら進めます。

さえちゃん
さえ

第7章ラスト! ここは確率計算という具体的な作業だから、手を動かして覚えるのがコツ! Excelも使うから、講座を読んだあとは実際にExcelで計算してみてね! 体で覚えると忘れないよ!

1. 標準正規分布の確率 ─ 「面積」で考える

連続型確率変数では、「特定の値を取る確率」には意味がなく、「ある範囲に入る確率」を考えるのでした(7-1)。これは正規分布でも同じ。曲線の下の面積がそのまま確率になります。

例:Z ≤ 1.5 の確率

標準正規分布 N(0, 1) で、Z が 1.5 以下になる確率を求めることを考えます。これは曲線の左から Z = 1.5 までの面積です。

-3 0 1.5 3 ≒ 0.9332 (約93.32%) P(Z ≤ 1.5)

P(Z ≤ 1.5) = 曲線の左から Z=1.5 までの面積 ≒ 0.9332

標準正規分布表とは

この面積(確率)の値は、標準正規分布表であらかじめ計算されています。試験では問題用紙にこの表が添付されるので、表から値を読み取ります。

試験で使われる標準正規分布表は、多くの場合 P(0 ≤ Z ≤ z)(中央 0 から z までの面積)が記載されています。これは標準正規分布が左右対称なので、右半分の面積さえわかれば全体が計算できるからです。

標準正規分布表の使い方(基本)

よく出てくる値を表で確認しておきましょう。

z 0.5 1.0 1.5 1.96 2.0 2.5 3.0
P(0 ≤ Z ≤ z) 0.1915 0.3413 0.4332 0.4750 0.4772 0.4938 0.4987

4つの典型計算パターン

標準正規分布表を使った計算には、4つの典型パターンがあります。すべて「対称性」と「左半分は0.5」の2つを使えば求められます。

① P(0 ≤ Z ≤ a) → 表から直接読む

例:P(0 ≤ Z ≤ 1.5) = 0.4332

② P(Z ≤ a) → 0.5 + 表の値(aが正の場合)

例:P(Z ≤ 1.5) = 0.5 + 0.4332 = 0.9332

③ P(Z ≥ a) → 0.5 − 表の値(aが正の場合)

例:P(Z ≥ 1.5) = 0.5 − 0.4332 = 0.0668

④ P(a ≤ Z ≤ b) → 表の値の引き算(同符号の場合)/ 足し算(異符号の場合)

例:P(0.5 ≤ Z ≤ 1.5) = 0.4332 − 0.1915 = 0.2417

POINT

標準正規分布表を使う問題は、釣鐘曲線の絵を描いて「どこの面積か」を確認するのが間違い防止のコツ。「足すのか引くのか」「0.5を加えるのか減らすのか」が、図を描けばすぐわかります。

2. Excelで確率を計算する ─ NORM.S.DIST関数

実務では、標準正規分布表を見るより、Excelの関数のほうが圧倒的に楽です。3級の試験では分布表を使いますが、計算の理解を深めるためにExcelも触れておきましょう。

NORM.S.DIST関数の基本

FORMULA

=NORM.S.DIST(z, TRUE)
標準正規分布で P(Z ≤ z) を返す
(S = Standard、関数名は「ノルム・スタンダード・ディスト」と読みます)

第2引数に TRUE を入れることで、累積確率(左からの面積)が返ります。FALSE を入れると密度の値(曲線の高さ)が返るので、3級では基本 TRUE を使うと覚えてください。

使用例

求めたい確率 Excel式 結果
P(Z ≤ 1.5)=NORM.S.DIST(1.5, TRUE)0.9332
P(Z ≤ -1)=NORM.S.DIST(-1, TRUE)0.1587
P(Z ≤ 1.96)=NORM.S.DIST(1.96, TRUE)0.9750
P(Z ≥ 2)=1-NORM.S.DIST(2, TRUE)0.0228
P(-1 ≤ Z ≤ 1)=NORM.S.DIST(1,TRUE)-NORM.S.DIST(-1,TRUE)0.6827
P(-2 ≤ Z ≤ 2)=NORM.S.DIST(2,TRUE)-NORM.S.DIST(-2,TRUE)0.9545

最後の P(-1 ≤ Z ≤ 1) ≒ 0.6827 と P(-2 ≤ Z ≤ 2) ≒ 0.9545 は、前回学んだ68-95-99.7ルールの正確な値です。「約68%」「約95%」とは、ここから来ていたんですね。

EXCEL

Excelで NORM.S.DIST を覚えておけば、標準正規分布の確率はいくらでも計算できます。負の値もそのまま入れられるので、表を使うより断然便利です。試験では分布表を使うのが基本ですが、実務での計算はExcelに任せましょう。

3. 一般の正規分布の確率 ─ 標準化を使う

確率を求めたい正規分布が N(0, 1) ではない一般の正規分布のときは、標準化(7-3で学習)を使います。

計算の流れ

  1. 確率変数 X を標準化:Z = (X − μ) / σ
  2. 知りたい範囲を、Z の範囲に変換
  3. 標準正規分布の確率として求める

具体例:身長の問題

EXAMPLE

日本人男性の身長が N(170, 36) (μ=170cm、σ=6cm)に従うとします。身長が176cm以上の人の割合を求めてください。

解答

X を身長として、求めたいのは P(X ≥ 176)。標準化のステップを順に進めます。

ステップ1:標準化

X = 176 を Z に変換します。

Z = (176 − 170) / 6 = 1.0

ステップ2:Z の範囲に変換

X ≥ 176 は Z ≥ 1.0 と同じこと。

ステップ3:確率を求める

P(Z ≥ 1.0) = 0.5 − P(0 ≤ Z ≤ 1.0) = 0.5 − 0.3413 = 0.1587(約15.87%)

日本人男性のうち、身長176cm以上の人は約16%です。前回 7-3 で「Lサイズの会員は約16%」と計算したのと一致しますね。

Excelで一発計算

Excelでは、わざわざ標準化しなくても、NORM.DIST関数を使えば一発で計算できます。

FORMULA

=NORM.DIST(x, μ, σ, TRUE)
正規分布 N(μ, σ²) で P(X ≤ x) を返す
(関数名は「ノルム・ディスト」、S(Standard)が抜けているのがポイント)

先ほどの身長の例なら:

P(X ≥ 176) = 1 − P(X ≤ 176) = =1 - NORM.DIST(176, 170, 6, TRUE) ≒ 0.1587

標準化なしで、いきなり結果が出ます。第3引数は標準偏差(σ)で、分散(σ²)ではないので注意してください。

POINT

試験では標準化して標準正規分布表を使う、実務では NORM.DIST 関数で一発計算──場面で使い分けられると最強です。

4. 二項分布の正規近似

最後に、前回 7-3 の最後で予告した二項分布の正規近似です。

正規近似とは

二項分布 B(n, p) で n が大きいとき、その分布は正規分布で近似できます。

RULE

n が十分大きいとき、
B(n, p) ≒ N(np, np(1-p))

期待値 np と分散 np(1-p) を持つ正規分布で、二項分布の確率が近似できる、ということです。直接計算が大変な二項分布の問題が、正規分布の確率計算に置き換わる──これが正規近似の威力です。

具体例:コイン100回投げ

EXAMPLE

コインを100回投げて、表が出る回数 X を考えます。X が二項分布 B(100, 0.5) に従うとき、X が60以上になる確率を求めてください(正規近似を使います)。

解答

ステップ1:近似する正規分布を決める

ステップ2:標準化

Z = (60 − 50) / 5 = 2.0

ステップ3:確率を求める

P(X ≥ 60) ≒ P(Z ≥ 2.0) = 0.5 − 0.4772 = 0.0228(約2.28%)

コインを100回投げて、表が60回以上出るのは約2.28%(50回に1回くらい)。意外とレアなことだとわかりますね。

Excelでも確認

Excelで NORM.DIST を使って同じ計算をしてみると:

=1 - NORM.DIST(60, 50, 5, TRUE) ≒ 0.0228

ぴったり一致します。直接二項分布で計算した正確な値は約0.0284なので、正規近似の精度はかなり高いことがわかります(誤差は0.0056ほど)。

POINT

二項分布の正規近似は、n が大きく、p が0.5に近いほど精度が良くなる。3級の問題では、近似で計算するか、二項分布の式で直接計算するか、問題の指示に従うのが大事です。

5. 第7章を終えて

第7章「確率変数と確率分布」、おつかれさまでした。最後に章全体を俯瞰しておきましょう。

テーマ 身につけた力
7-1確率変数と確率分布の考え方確率変数という抽象概念、離散型と連続型の区別
7-2平均・分散・標準偏差期待値、分散、aX+bの線形変換
7-3二項分布と正規分布2大分布の形と性質、68-95-99.7ルール
7-4本ページ標準正規分布表、Excel関数、正規近似

記述統計から確率分布へ

第1〜5章では「目の前のデータをどう要約するか」という記述統計を学び、第6章で確率の世界に入り、そして第7章で確率変数と確率分布に到達しました。確率変数と確率分布の発想は、データを「単なる数字の集まり」ではなく「ばらつきを持つ確率的な存在」として捉える視点を与えてくれます。

この視点こそが、現代のデータサイエンス・機械学習・AIの土台。3級の学習を通して、データを確率的に考える基礎体力を身につけたと言えます。

CHAPTER 7 完了!

第7章「確率変数と確率分布」、ここで完了です。

次は第8章「データの収集」です。第8章はデータの集め方を扱う実用的な章で、クールダウン的に読み進めることができると思います。

さえちゃん
さえ

第7章コンプリート、本当におつかれさまでした! 確率変数・期待値・正規分布・標準化・正規近似──ここは何度も読み返してみてください。感覚をつかむまで時間がかかる章です。読み返した回数分、理解も定着すると思います!