第1章 1-3 / データの記述と要約

代表値（平均・中央値・最頻値）

このページで学ぶこと

前回 1-2 で分布の形を見たら、次は「このデータを1つの数で代表させると何点？」という問いに答えます。その代表となる値が代表値です。代表値の三役者──算術平均・中央値・最頻値を、定義から求め方まで整理します。

ポイントは、3つがそれぞれ得意・不得意を持つこと。とくに「外れ値に強いのはどれか」「歪んだ分布で3つはどう並ぶか」は2級の頻出テーマです。数値例で手を動かしながら、使い分けの感覚をつかみましょう。

さえ

「平均」は一番おなじみだけど、じつは万能じゃないんだ。お金持ちが1人まざっただけで、平均はビヨーンと引っぱられちゃう。だから中央値や最頻値という仲間がいるんだよ。今日は3人の個性を見ていこう！

1. 算術平均 ─ もっとも基本の代表値

算術平均（単に平均とも）は、すべての値を足してデータ数で割った値です。データを $x_1, x_2, \dots, x_n$ とすると、平均 $\bar{x}$ は次のように書けます。

FORMULA

$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}$$ $\bar{x}$（エックスバー）が平均、$n$ がデータ数、$\sum_{i=1}^{n} x_i$ がすべての値の合計です。

EXAMPLE（基本）

5人のテスト点数が $70, 80, 90, 60, 50$ のとき、

$\bar{x} = \dfrac{70+80+90+60+50}{5} = \dfrac{350}{5} = 70$（点）。

度数分布表からの平均

生のデータがなく度数分布表しかないときは、各階級の代表として階級値を使い、「階級値 × 度数」を足し合わせて総数で割ります。階級値を $x_i$、度数を $f_i$ とすると次のとおりです。

FORMULA

$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} f_i\, x_i, \qquad n = \sum_{i=1}^{n} f_i$$

EXAMPLE（度数分布表）

1-2 の40人のテストデータ（階級値と度数）で計算します。

$\sum f_i x_i = 35\cdot2 + 45\cdot3 + 55\cdot6 + 65\cdot12 + 75\cdot9 + 85\cdot6 + 95\cdot2 = 2690$

$\bar{x} = \dfrac{2690}{40} = 67.25$（点）。

平均のうれしい性質は、すべてのデータを計算に使うため情報のロスが少なく、数式でも扱いやすいことです。次の章以降で学ぶ分散や期待値も、この平均が土台になります。

2. 中央値 ─ 真ん中に立つ値

中央値（メジアン）は、データを小さい順に並べたときにちょうど真ん中に来る値です。記号では $\tilde{x}$ などと書きます。データ数 $n$ が奇数か偶数かで求め方が少し変わります。

POINT

$n$ が奇数：真ん中の1個がそのまま中央値（$\frac{n+1}{2}$ 番目の値）。
$n$ が偶数：真ん中2個の平均が中央値（$\frac{n}{2}$ 番目と $\frac{n}{2}+1$ 番目の平均）。

EXAMPLE

$50, 60, 70, 80, 90$（$n=5$、奇数）→ 真ん中の3番目で中央値は $70$。

$50, 60, 70, 80$（$n=4$、偶数）→ 真ん中2個 $60, 70$ の平均で $\dfrac{60+70}{2}=65$。

中央値は「順番」だけで決まり、足し算も割り算もほとんど使いません。だから前回学んだ順序尺度のデータにも使えますし、何より極端な値の影響をほとんど受けないのが大きな強みです。

3. 最頻値 ─ いちばん多く現れる値

最頻値（モード）は、もっとも多く現れる値、つまり度数が最大の値です。度数分布表なら、いちばん度数の大きい階級（の階級値）が最頻値になります。

EXAMPLE

$2, 3, 3, 3, 4, 5, 6$ では、$3$ が3回でいちばん多いので最頻値は $3$。

1-2 のテストデータなら、度数が最大（12人）の60点台が最頻の階級。その階級値 $65$ を最頻値とします。

最頻値は、数値ではない名義尺度のデータにも使える唯一の代表値です。「いちばん人気の色は？」「もっとも売れたサイズは？」のような問いには、平均でも中央値でもなく最頻値が答えになります。一方、連続データではまったく同じ値が複数出ることが少ないため、階級にまとめてから考えるのがふつうです。

さえ

3人の覚え方はカンタン。平均は「ぜんぶ足して山分け」、中央値は「並べて真ん中」、最頻値は「いちばん人気者」。アンケートの「好きな色」みたいに数字じゃないデータは、最頻値しか出番がないんだよ！

4. 外れ値への頑健性 ─ 平均の弱点

3つの代表値の決定的な違いは、極端な値（外れ値）にどれだけ振り回されるかです。具体例で見てみましょう。ある部署の7人の月収（万円）が次のようだったとします。

EXAMPLE（外れ値の影響）

月収データ：$32, 35, 36, 38, 40, 42, 150$（単位：万円）

平均 $\bar{x} = \dfrac{32+35+36+38+40+42+150}{7} = \dfrac{373}{7} \approx 53.3$ 万円

中央値 $\tilde{x} = 38$ 万円（4番目の値）

7人のうち6人は30万円台〜40万円台なのに、平均は約53万円。たった1人の高収入（150万円）が平均をぐっと引き上げています。一方、中央値は38万円のまま動じません。

このように、平均はすべての値を計算に使うがゆえに、極端な値があるとそちらへ引っぱられます。逆に中央値は「順番の真ん中」しか見ないので、端の値がどれだけ大きくても（小さくても）びくともしません。この「外れ値に強い」性質を頑健性（ロバストネス）と呼びます。

POINT

頑健性が高い順に、おおむね中央値・最頻値＞平均です。年収・地価・売上のように一部に飛び離れた値が混じりやすいデータでは、平均だけ示すと実感とズレた印象を与えがち。中央値も併せて報告するのが誠実なやり方です。

5. 歪んだ分布での3者の位置関係

分布が左右対称なら、平均・中央値・最頻値はほぼ同じ位置に重なります。ところが分布が歪むと、3つはズレて並びます。この並び順が2級でよく問われます。

歪んだ分布では、平均が裾の方へ引っぱられる。右に歪めば「最頻値＜中央値＜平均」、左に歪めばその逆。

考え方はシンプルです。最頻値は山の頂点、平均は裾に引っぱられる、中央値はその中間に位置します。だから、

右に歪んだ分布（裾が右）：最頻値＜中央値＜平均
左に歪んだ分布（裾が左）：平均＜中央値＜最頻値
左右対称：3つはほぼ一致

POINT

覚え方は「平均は裾の方へ逃げる」。裾が伸びている側に平均がいちばん近づき、最頻値はいちばん遠い山のてっぺん、中央値はその間です。これさえ押さえれば、グラフを見ただけで3者の並び順が即答できます。

まとめ

第1章 1-3、ポイントを整理します。

算術平均：$\bar{x}=\frac{1}{n}\sum_{i=1}^{n} x_i$。全データを使う。外れ値に弱い
中央値：並べて真ん中。順序尺度でも使え、外れ値に強い（頑健）
最頻値：いちばん多い値。名義尺度でも使える唯一の代表値
頑健性：中央値・最頻値＞平均。歪んだデータは中央値も併記すると親切
歪みと位置関係：右に歪めば「最頻値＜中央値＜平均」、左に歪めば逆。平均は裾へ逃げる

次回 1-4 散らばりの指標では、「データがどれくらいバラついているか」を測る分散・標準偏差・四分位範囲を学びます。代表値が「中心」を表すなら、散らばりは「広がり」を表す、もう一つの主役です。

さえ

「平均は裾の方へ逃げる」──このひと言で、3者の並び順は怖くないよ。グラフの裾を見て、その近くに平均、てっぺんに最頻値、間に中央値。指でなぞって確認してみてね！