連続分布② 正規分布・標準正規分布
いよいよ統計学の主役、正規分布の登場です。身長・測定誤差・テストの点数など、世の中の「平均のまわりに集まり、両側へなだらかに減るデータ」の多くが、この釣鐘型の分布で表せます。第3章以降の推定・検定の土台になる、最重要の分布です。
本ページでは、密度関数の形と $E[X]=\mu$・$V[X]=\sigma^2$ を確認し、どんな正規分布も共通のものさしに揃える標準化 $Z=\dfrac{X-\mu}{\sigma}$ を導きます。さらに 68-95-99.7 則と標準正規分布表を使って、実際に確率を計算できるようになるのがゴールです。
正規分布は統計学のラスボス級に大事な分布だよ! ポイントは「標準化してN(0,1)に変換 → 表で確率を読む」という流れ。これさえできれば、第3章以降の推定も検定もぜんぶ通れるよ。今日でしっかり仲良くなろう!
1. 正規分布とは
正規分布は、平均 $\mu$ を中心に左右対称な、釣鐘型(ベル型)の連続分布です。「たくさんの小さな要因がランダムに足し合わさってできる量」は正規分布に近づくことが知られており(その理由は 2-13c 中心極限定理で扱います)、自然界・社会のあちこちに現れます。平均 $\mu$ と分散 $\sigma^2$ の2つのパラメータで形が完全に決まり、$N(\mu,\sigma^2)$ と書きます。
正規分布 $N(\mu,\sigma^2)$ の確率密度関数:
$$f(x) = \frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\qquad(-\infty
指数の中の $(x-\mu)^2$ が「中心 $\mu$ からの距離」を測っており、中心から離れるほど密度が急速に小さくなります。係数 $\dfrac{1}{\sqrt{2\pi}\,\sigma}$ は、全区間の積分(総面積)をちょうど $1$ にするための調整です。式そのものを暗記する必要はありませんが、「中心 $\mu$ ・広がり $\sigma$ で決まる左右対称の山」というイメージは持っておきましょう。
正規分布 N(μ,σ²):中心 μ で左右対称の釣鐘型。曲線の下の総面積は 1
μ と σ で形がどう変わるか
- $\mu$ が大きくなると、山ぜんたいが右へ平行移動する(位置が動く)
- $\sigma$ が大きくなると、山は横に広がって低くなる(ばらつきが大きい)
- $\sigma$ が小さくなると、山は縦に細く高くなる(ばらつきが小さい)
どんな $\mu,\sigma$ でも「左右対称の釣鐘型」という形そのものは変わりません。位置と幅が変わるだけ──だからこそ、次の標準化で「ひとつの基準の形」に揃えられるのです。
2. 標準正規分布と標準化
正規分布の中でも、$\mu=0$・$\sigma^2=1$ の特別なものを標準正規分布 $N(0,1)$ と呼びます。確率変数には慣習的に $Z$ を使います。標準正規分布が特別なのは、すべての正規分布をこの形に変換できるからです。
$X\sim N(\mu,\sigma^2)$ のとき、 $$Z = \frac{X-\mu}{\sigma}\ \sim\ N(0,1)$$ この変換を標準化といいます。$Z$ は「$X$ が平均から標準偏差いくつ分ずれているか」を表す無次元の量です。
なぜ標準化で $N(0,1)$ になるのか
理由は、前章で学んだ期待値の線形性(2-5a)と分散の性質(2-5b)だけで説明できます。$Z=\dfrac{1}{\sigma}X-\dfrac{\mu}{\sigma}$ は $X$ の線形変換なので、
$$ \begin{aligned} E[Z] &= E\!\left[\frac{X-\mu}{\sigma}\right] = \frac{1}{\sigma}\big(E[X]-\mu\big) = \frac{\mu-\mu}{\sigma} = 0 &&\text{(期待値の線形性)}\\[2pt] V[Z] &= V\!\left[\frac{X-\mu}{\sigma}\right] = \frac{1}{\sigma^2}V[X] = \frac{\sigma^2}{\sigma^2} = 1 &&\text{(} V[aX+b]=a^2V[X] \text{)} \end{aligned} $$
$E[Z]=0$、$V[Z]=1$ となりました。さらに「正規分布を線形変換しても正規分布のまま」という性質(正規分布の再生性の一種)があるため、$Z$ は確かに $N(0,1)$ に従います。位置 $\mu$ を引いて中心を $0$ に、$\sigma$ で割って幅を $1$ に揃える──これが標準化の正体です。
標準正規分布 N(0,1):中心 0、標準偏差 1。すべての正規分布の確率はこの形に標準化して読む
3. 68-95-99.7 則
正規分布には、覚えておくと一生使える有名な経験則があります。中心 $\mu$ から標準偏差 $\sigma$ いくつ分の範囲に、データのどれくらいが入るかを表したものです。
正規分布 $N(\mu,\sigma^2)$ において: $$P(\mu-\sigma \le X \le \mu+\sigma) \approx 0.683$$ $$P(\mu-2\sigma \le X \le \mu+2\sigma) \approx 0.954$$ $$P(\mu-3\sigma \le X \le \mu+3\sigma) \approx 0.997$$ つまり $\mu\pm\sigma$ に約 $68\%$、$\mu\pm 2\sigma$ に約 $95\%$、$\mu\pm 3\sigma$ に約 $99.7\%$ が収まります。
68-95-99.7則:内側から μ±σ(約68%)、μ±2σ(約95%)、μ±3σ(約99.7%)
日本人男性の身長が $N(170, 6^2)$($\mu=170$ cm、$\sigma=6$ cm)に従うとします。
- $\mu\pm\sigma = 164\sim176$ cm に約 $68\%$
- $\mu\pm 2\sigma = 158\sim182$ cm に約 $95\%$
- $\mu\pm 3\sigma = 152\sim188$ cm に約 $99.7\%$
身長 $188$ cm を超える人は約 $0.15\%$($3\sigma$ より外の片側)と、かなり珍しい。直感ともよく合いますね。
4. 標準正規分布表の引き方
$68\%$ や $95\%$ のような切りのいい範囲ではなく、たとえば「$Z\le 1.5$ の確率」を求めたいときは、標準正規分布表を使います。正規分布の確率は手で積分できないため、あらかじめ計算された数表を読むのが基本です(試験では問題冊子に添付されます)。
表の形式はいくつかありますが、ここでは $P(0\le Z\le z)$(中心 $0$ から $z$ までの面積)を載せる形式で説明します。左右対称なので、右半分の面積さえ分かれば全体を計算できます。
| $z$ | 0.5 | 1.0 | 1.5 | 1.96 | 2.0 | 2.5 | 3.0 |
|---|---|---|---|---|---|---|---|
| $P(0\le Z\le z)$ | 0.1915 | 0.3413 | 0.4332 | 0.4750 | 0.4772 | 0.4938 | 0.4987 |
4つの典型パターン
表から確率を求めるとき使うのは、「左半分の面積は $0.5$」と「左右対称」の2つだけです。
- ① $P(0\le Z\le a)$:表から直接。例 $P(0\le Z\le 1.5)=0.4332$
- ② $P(Z\le a)$($a>0$):$0.5+$ 表の値。例 $P(Z\le 1.5)=0.5+0.4332=0.9332$
- ③ $P(Z\ge a)$($a>0$):$0.5-$ 表の値。例 $P(Z\ge 1.5)=0.5-0.4332=0.0668$
- ④ $P(a\le Z\le b)$:表の値の引き算(同符号)/足し算(異符号)。例 $P(0.5\le Z\le 1.5)=0.4332-0.1915=0.2417$
分布表の問題は、必ず釣鐘曲線の絵を描いて「どこの面積か」を確認するのがミス防止のコツ。「$0.5$ を足すのか引くのか」「表の値を引くのか足すのか」は、図を描けば一目でわかります。
5. 一般の正規分布の確率計算
$N(0,1)$ でない一般の正規分布の確率は、標準化してから表を引くのが定石です。流れは「①標準化 $Z=\dfrac{X-\mu}{\sigma}$ → ②範囲を $Z$ に変換 → ③表で確率を読む」の3ステップ。
ある資格試験の得点 $X$ が $N(60, 10^2)$($\mu=60$、$\sigma=10$)に従うとします。次の確率を求めてください。
(1) $80$ 点以上の割合
標準化すると $Z=\dfrac{80-60}{10}=2.0$。よって $$P(X\ge 80)=P(Z\ge 2.0)=0.5-P(0\le Z\le 2.0)=0.5-0.4772=0.0228$$ 約 $2.28\%$。上位 $2\%$ 強の難関です。
(2) $50$ 点以上 $70$ 点以下の割合
両端を標準化すると $\dfrac{50-60}{10}=-1.0$、$\dfrac{70-60}{10}=1.0$。よって $$P(50\le X\le 70)=P(-1.0\le Z\le 1.0)=2\times 0.3413=0.6827$$ 約 $68.3\%$。これは $\mu\pm\sigma$ の範囲そのものなので、68-95-99.7 則の「約 $68\%$」と一致します。
確率計算は「標準化 → 表」の2ステップが命! 迷ったら $Z=\dfrac{X-\mu}{\sigma}$ で $Z$ に直してから、絵を描いて面積を確認しよう。$\sigma$ は標準偏差で、分散 $\sigma^2$ と取り違えないようにね。ここは試験の超頻出ポイントだよ!
まとめ
第2章 2-10、ポイントを整理します。
- 正規分布 $N(\mu,\sigma^2)$:$f(x)=\dfrac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$、$E[X]=\mu$、$V[X]=\sigma^2$
- 標準正規分布 $N(0,1)$:$\mu=0$、$\sigma^2=1$。すべての正規分布の基準
- 標準化:$Z=\dfrac{X-\mu}{\sigma}\sim N(0,1)$。$E[Z]=0$・$V[Z]=1$ は線形性から導ける
- 68-95-99.7 則:$\mu\pm\sigma$ で約 $68\%$、$\mu\pm 2\sigma$ で約 $95\%$、$\mu\pm 3\sigma$ で約 $99.7\%$
- 確率計算:①標準化 → ②範囲を $Z$ に → ③表で読む。絵を描いて面積を確認
次回 2-11 2変量正規分布・共分散と相関 では、$X$ と $Y$ という2つの正規分布を同時に扱います。相関係数 $\rho$ で分布の形(楕円)がどう変わるか、そして正規分布では「無相関 $\Leftrightarrow$ 独立」が成り立つという特別な事実を確かめます。
正規分布、つかめたかな? 今日の合言葉は「標準化してN(0,1)、あとは表で面積」。68-95-99.7則は暗記、確率計算は手を動かして練習が効くよ。ここを越えたら推定・検定はもう目の前! 次は2変量だよ!