散らばりの指標
前回 1-3 の代表値が「データの中心」を表すなら、今回学ぶ散らばりの指標は「データの広がり」を表す、もう一人の主役です。平均が同じでも、ギュッと集まっているのかバラバラなのかで、データの意味はまるで変わります。
ここでは偏差・分散・標準偏差・範囲・四分位範囲(IQR)を順に学び、最後に5数要約を絵にした箱ひげ図まで進みます。なお2級では、分散を$n-1$ で割る不偏分散を基本に扱います。標本分散との違いも、ここで軽く整理しておきましょう。
2つのクラスの平均点がどちらも70点でも、片方は全員70点前後、もう片方は0点と100点が半々……ぜんぜん違うよね。この「違い」を数字で表すのが散らばりの指標。中心だけ見てちゃダメなんだよ!
1. 偏差 ─ 散らばりの出発点
散らばりを測る第一歩は、各データが平均からどれだけ離れているかを見ることです。この「値 − 平均」を偏差と呼びます。データ $x_i$ の偏差は $x_i - \bar{x}$ です。
ところが、偏差をそのまま全部足してもうまくいきません。平均より大きい値(正の偏差)と小さい値(負の偏差)が打ち消し合って、合計はかならず0になってしまうからです。
$$\sum_{i=1}^{n} (x_i - \bar{x}) = 0$$ 偏差の合計は常に0。だから散らばりの指標として「偏差の合計」は使えません。
そこで登場するアイデアが、偏差を2乗してから足すこと。2乗すれば符号が消えて全部プラスになり、打ち消し合いが起きません。これが次の分散につながります。
2. 分散と標準偏差
偏差を2乗して平均的にならしたものが分散です。ただし「何で割るか」で2つの流儀があります。データの個数 $n$ で割るものを標本分散、$n-1$ で割るものを不偏分散と呼びます。
標本分散($n$ で割る): $$s_n^{2} = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^{2}$$ 不偏分散($n-1$ で割る): $$s^{2} = \frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^{2}$$
違いは分母だけです。では、なぜ $n-1$ で割るほうを使うのでしょうか。直感的には、手元のデータ(標本)から計算した平均 $\bar{x}$ を使って偏差を測っているぶん、本当の母集団のばらつきを少し小さく見積もってしまうクセがあるためです。$n-1$ で割ることでこの過小評価を補正でき、母集団の分散を平均的にちょうどよく推定できます(この「平均的に正しく当てる」性質を不偏性と呼び、くわしくは第3章で導出します)。
本講座では、これ以降$n-1$ で割る不偏分散 $s^2$ を分散の基本とします。手元のデータを「より大きな母集団から取り出した標本」とみなし、母集団のばらつきを推定したい、という2級の立場に合うからです。問題文が「標本分散」と明示している場合だけ $n$ で割る、と覚えておけば安心です。
標準偏差
分散は偏差を2乗しているので、単位がもとのデータの2乗(点なら「点²」)になり、感覚的につかみにくくなります。そこで分散の正の平方根をとって単位をもとに戻したのが標準偏差です。不偏分散にもとづく標準偏差を $s$ と書きます。
$$s = \sqrt{s^{2}} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n} (x_i - \bar{x})^{2}}$$ 標準偏差はデータと同じ単位を持つので、「平均からだいたいこれくらいバラついている」と直感的に読めます。
5人のテスト点数 $60, 64, 68, 72, 76$ で計算します。まず平均は $\bar{x}=68$。
偏差:$-8,\ -4,\ 0,\ 4,\ 8$(合計はちゃんと $0$)
偏差の2乗:$64,\ 16,\ 0,\ 16,\ 64$、その合計 $\sum (x_i-\bar{x})^2 = 160$
不偏分散:$s^2 = \dfrac{160}{5-1} = \dfrac{160}{4} = 40$
標準偏差:$s = \sqrt{40} \approx 6.32$(点)
参考までに、もし標本分散($n$ で割る)なら $s_n^2 = \dfrac{160}{5} = 32$、その標準偏差は $\sqrt{32}\approx 5.66$。分母が小さい不偏分散のほうが、わずかに大きく出ます。
「分散は2乗の世界、標準偏差は元の単位に戻したもの」って覚えてね。分散だけ見ても「点²って何…?」ってなるけど、ルートを取って標準偏差にすれば「平均から6点くらいバラついてるんだな」ってスッと入ってくるよ!
3. 範囲と四分位範囲(IQR)
分散・標準偏差はすべての値を使う指標ですが、もっと手軽に散らばりを表す方法もあります。
範囲
範囲(レンジ)は、いちばん大きい値からいちばん小さい値を引いたものです。
$$\text{範囲} = \text{最大値} - \text{最小値}$$
計算は簡単ですが、両端の2個しか見ないので、外れ値が1つあるだけで大きく振れてしまうのが弱点です。
四分位範囲(IQR)
そこで、外れ値に強い散らばりの指標が四分位範囲(IQR)です。データを小さい順に並べて4等分する境目を四分位数と呼び、下から25%の位置を第1四分位数 $Q_1$、50%(=中央値)を $Q_2$、75%を第3四分位数 $Q_3$ とします。IQRは $Q_3$ と $Q_1$ の差、つまり真ん中50%が占める幅です。
$$\text{IQR} = Q_3 - Q_1$$ 中央付近の50%だけを見るので、両端の極端な値に振り回されません。
データ:$10, 20, 30, 40, 50, 60, 70, 80, 200$($n=9$、昇順)
中央値 $Q_2 = 50$(5番目)。下半分 $10,20,30,40$ の中央で $Q_1 = \dfrac{20+30}{2}=25$、上半分 $60,70,80,200$ の中央で $Q_3 = \dfrac{70+80}{2}=75$。
$\text{IQR} = Q_3 - Q_1 = 75 - 25 = 50$。
一方この例の範囲は $200-10=190$。$200$ という飛び離れた値が範囲を一気に押し広げているのに対し、IQRは $50$ と落ち着いています。これがIQRの「外れ値に強い」性質です。
4. 箱ひげ図 ─ 5数要約を絵にする
最小値・$Q_1$・中央値・$Q_3$・最大値の5つの値を5数要約と呼びます。これを1つの図にまとめたのが箱ひげ図です。「箱」が真ん中50%(IQRの幅)、「ひげ」が上下の広がりを表します。
ひげの先は、ふつう「$Q_1 - 1.5\times\text{IQR}$ から $Q_3 + 1.5\times\text{IQR}$ の範囲に収まる、いちばん端のデータ」まで伸ばします。この範囲をはみ出した値は外れ値として点で示します。さきほどのデータ($Q_1=25,\ Q_3=75,\ \text{IQR}=50$)なら、上側の境目は $75 + 1.5\times 50 = 150$。$200$ はこれを超えるので外れ値です。
箱ひげ図のうれしいところは、中心・広がり・偏り・外れ値を1つの図でいっぺんに読み取れることです。箱の中で中央値の線が片寄っていれば分布が歪んでいるサイン、ひげの長さが上下で違えば裾の伸び方の違い、というふうに。複数のグループを横に並べれば、集団どうしの比較もひと目でできます。
散らばりの指標は、対になる代表値とセットで使うのがコツです。平均には標準偏差、中央値にはIQR。外れ値が気になるデータでは「中央値とIQR(+箱ひげ図)」、左右対称でクセの少ないデータでは「平均と標準偏差」を選ぶと、データの姿を正しく伝えられます。
まとめ
第1章 1-4、ポイントを整理します。
- 偏差:$x_i - \bar{x}$。ただし合計は常に0なので、そのままでは指標にならない
- 分散:偏差の2乗の平均。本講座は $n-1$ で割る不偏分散 $s^2=\frac{1}{n-1}\sum(x_i-\bar{x})^2$ を基本にする
- 標準偏差:$s=\sqrt{s^2}$。分散の平方根で、単位がデータと同じになり読みやすい
- 範囲:最大 − 最小。手軽だが外れ値に弱い
- 四分位範囲(IQR):$Q_3-Q_1$、中央50%の幅。外れ値に強い
- 箱ひげ図:5数要約を絵にしたもの。中心・広がり・偏り・外れ値を一目で読める
次回 1-5 散らばりの応用 では、不平等の度合いを測るローレンツ曲線とジニ係数を学びます。「散らばり」の考え方を、格差の測定へと広げていきますよ。
分散の分母、これからは原則「$n-1$」だよ。手元のデータから母集団のばらつきを当てにいく、っていう2級の立ち位置を思い出してね。標準偏差とIQR、2つの「ものさし」を使い分けられたら今日は合格!