代表値(平均・中央値・最頻値)
前回 1-2 で分布の形を見たら、次は「このデータを1つの数で代表させると何点?」という問いに答えます。その代表となる値が代表値です。代表値の三役者──算術平均・中央値・最頻値を、定義から求め方まで整理します。
ポイントは、3つがそれぞれ得意・不得意を持つこと。とくに「外れ値に強いのはどれか」「歪んだ分布で3つはどう並ぶか」は2級の頻出テーマです。数値例で手を動かしながら、使い分けの感覚をつかみましょう。
「平均」は一番おなじみだけど、じつは万能じゃないんだ。お金持ちが1人まざっただけで、平均はビヨーンと引っぱられちゃう。だから中央値や最頻値という仲間がいるんだよ。今日は3人の個性を見ていこう!
1. 算術平均 ─ もっとも基本の代表値
算術平均(単に平均とも)は、すべての値を足してデータ数で割った値です。データを $x_1, x_2, \dots, x_n$ とすると、平均 $\bar{x}$ は次のように書けます。
$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}$$ $\bar{x}$(エックスバー)が平均、$n$ がデータ数、$\sum_{i=1}^{n} x_i$ がすべての値の合計です。
5人のテスト点数が $70, 80, 90, 60, 50$ のとき、
$\bar{x} = \dfrac{70+80+90+60+50}{5} = \dfrac{350}{5} = 70$(点)。
度数分布表からの平均
生のデータがなく度数分布表しかないときは、各階級の代表として階級値を使い、「階級値 × 度数」を足し合わせて総数で割ります。階級値を $x_i$、度数を $f_i$ とすると次のとおりです。
$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} f_i\, x_i, \qquad n = \sum_{i=1}^{n} f_i$$
1-2 の40人のテストデータ(階級値と度数)で計算します。
$\sum f_i x_i = 35\cdot2 + 45\cdot3 + 55\cdot6 + 65\cdot12 + 75\cdot9 + 85\cdot6 + 95\cdot2 = 2690$
$\bar{x} = \dfrac{2690}{40} = 67.25$(点)。
平均のうれしい性質は、すべてのデータを計算に使うため情報のロスが少なく、数式でも扱いやすいことです。次の章以降で学ぶ分散や期待値も、この平均が土台になります。
2. 中央値 ─ 真ん中に立つ値
中央値(メジアン)は、データを小さい順に並べたときにちょうど真ん中に来る値です。記号では $\tilde{x}$ などと書きます。データ数 $n$ が奇数か偶数かで求め方が少し変わります。
$n$ が奇数:真ん中の1個がそのまま中央値($\frac{n+1}{2}$ 番目の値)。
$n$ が偶数:真ん中2個の平均が中央値($\frac{n}{2}$ 番目と $\frac{n}{2}+1$ 番目の平均)。
$50, 60, 70, 80, 90$($n=5$、奇数)→ 真ん中の3番目で中央値は $70$。
$50, 60, 70, 80$($n=4$、偶数)→ 真ん中2個 $60, 70$ の平均で $\dfrac{60+70}{2}=65$。
中央値は「順番」だけで決まり、足し算も割り算もほとんど使いません。だから前回学んだ順序尺度のデータにも使えますし、何より極端な値の影響をほとんど受けないのが大きな強みです。
3. 最頻値 ─ いちばん多く現れる値
最頻値(モード)は、もっとも多く現れる値、つまり度数が最大の値です。度数分布表なら、いちばん度数の大きい階級(の階級値)が最頻値になります。
$2, 3, 3, 3, 4, 5, 6$ では、$3$ が3回でいちばん多いので最頻値は $3$。
1-2 のテストデータなら、度数が最大(12人)の60点台が最頻の階級。その階級値 $65$ を最頻値とします。
最頻値は、数値ではない名義尺度のデータにも使える唯一の代表値です。「いちばん人気の色は?」「もっとも売れたサイズは?」のような問いには、平均でも中央値でもなく最頻値が答えになります。一方、連続データではまったく同じ値が複数出ることが少ないため、階級にまとめてから考えるのがふつうです。
3人の覚え方はカンタン。平均は「ぜんぶ足して山分け」、中央値は「並べて真ん中」、最頻値は「いちばん人気者」。アンケートの「好きな色」みたいに数字じゃないデータは、最頻値しか出番がないんだよ!
4. 外れ値への頑健性 ─ 平均の弱点
3つの代表値の決定的な違いは、極端な値(外れ値)にどれだけ振り回されるかです。具体例で見てみましょう。ある部署の7人の月収(万円)が次のようだったとします。
月収データ:$32, 35, 36, 38, 40, 42, 150$(単位:万円)
平均 $\bar{x} = \dfrac{32+35+36+38+40+42+150}{7} = \dfrac{373}{7} \approx 53.3$ 万円
中央値 $\tilde{x} = 38$ 万円(4番目の値)
7人のうち6人は30万円台〜40万円台なのに、平均は約53万円。たった1人の高収入(150万円)が平均をぐっと引き上げています。一方、中央値は38万円のまま動じません。
このように、平均はすべての値を計算に使うがゆえに、極端な値があるとそちらへ引っぱられます。逆に中央値は「順番の真ん中」しか見ないので、端の値がどれだけ大きくても(小さくても)びくともしません。この「外れ値に強い」性質を頑健性(ロバストネス)と呼びます。
頑健性が高い順に、おおむね中央値・最頻値 > 平均です。年収・地価・売上のように一部に飛び離れた値が混じりやすいデータでは、平均だけ示すと実感とズレた印象を与えがち。中央値も併せて報告するのが誠実なやり方です。
5. 歪んだ分布での3者の位置関係
分布が左右対称なら、平均・中央値・最頻値はほぼ同じ位置に重なります。ところが分布が歪むと、3つはズレて並びます。この並び順が2級でよく問われます。
考え方はシンプルです。最頻値は山の頂点、平均は裾に引っぱられる、中央値はその中間に位置します。だから、
- 右に歪んだ分布(裾が右):最頻値 < 中央値 < 平均
- 左に歪んだ分布(裾が左):平均 < 中央値 < 最頻値
- 左右対称:3つはほぼ一致
覚え方は「平均は裾の方へ逃げる」。裾が伸びている側に平均がいちばん近づき、最頻値はいちばん遠い山のてっぺん、中央値はその間です。これさえ押さえれば、グラフを見ただけで3者の並び順が即答できます。
まとめ
第1章 1-3、ポイントを整理します。
- 算術平均:$\bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i$。全データを使う。外れ値に弱い
- 中央値:並べて真ん中。順序尺度でも使え、外れ値に強い(頑健)
- 最頻値:いちばん多い値。名義尺度でも使える唯一の代表値
- 頑健性:中央値・最頻値 > 平均。歪んだデータは中央値も併記すると親切
- 歪みと位置関係:右に歪めば「最頻値<中央値<平均」、左に歪めば逆。平均は裾へ逃げる
次回 1-4 散らばりの指標 では、「データがどれくらいバラついているか」を測る分散・標準偏差・四分位範囲を学びます。代表値が「中心」を表すなら、散らばりは「広がり」を表す、もう一つの主役です。
「平均は裾の方へ逃げる」──このひと言で、3者の並び順は怖くないよ。グラフの裾を見て、その近くに平均、てっぺんに最頻値、間に中央値。指でなぞって確認してみてね!