第1章 1-6 / データの記述と要約

標準化・変動係数・指数化

このページで学ぶこと

英語75点と数学85点、どちらが「すごい」のか。売上の標準偏差50万円と30万円、どちらが「安定」しているのか。生の数字をそのまま比べると、規模や単位の違いに惑わされてしまいます。今回は、違うものさしのデータを同じ土俵に乗せる3つの道具を学びます。

主役は標準化(zスコア)と、そこから生まれる偏差値、データ全体の相対的なばらつきを測る変動係数、そして基準を $100$ とそろえて推移を見る指数化。どれも「相対化」がキーワードです。数値例で計算しながら、意味と使い分けを身につけましょう。

さえちゃん
さえ

3級でも標準化(zスコア)はちょっと触れたよね。2級では、なぜ「平均0・標準偏差1」になるのかも式で確かめて、変動係数や指数化までセットで整理するよ。全部「規模をそろえて比べる」ための道具だと思ってね!

1. 標準化(zスコア)─ 共通のものさしに乗せる

標準化とは、データの値を変換して平均 $0$・標準偏差 $1$ という共通のものさしに乗せ替える操作です。得られた値をzスコア(または z値)と呼びます。記号では、データの値を $x$、平均を $\bar{x}$、標準偏差を $s$ として次のように書きます。

FORMULA

$$z = \frac{x - \bar{x}}{s}$$ 分子の $x-\bar{x}$ は偏差(平均からのズレ)です。それを標準偏差 $s$ で割っているので、zスコアは「平均から標準偏差の何個分離れているか」を表します。

なぜ平均0・標準偏差1になるのか

この変換は $z = \frac{1}{s}x - \frac{\bar{x}}{s}$ という1次式(線形変換)です。$x$ から定数 $\bar{x}$ を引くと平均はその分だけ下がり、$s$ で割るとばらつきは $s$ 分の1に縮みます。だから、変換後の平均と標準偏差は次のように動きます。

DERIVATION

$$ \begin{aligned} \text{平均:} &\quad \frac{\bar{x} - \bar{x}}{s} = 0\\[4pt] \text{標準偏差:} &\quad \frac{s}{s} = 1 \end{aligned} $$

平均を引けば中心が $0$ に、標準偏差で割ればばらつきが $1$ に。どんな単位・規模のデータでも、標準化すれば必ず平均 $0$・標準偏差 $1$ にそろう、というのがポイントです。

zスコアの読み方

EXAMPLE 1(zスコアで教科をフェアに比べる)

Bさんの結果が、英語75点(平均60点・標準偏差10点)、数学85点(平均80点・標準偏差5点)でした。生の点数は数学のほうが高いですが、相対的にはどちらが上でしょう?

英語:$z = \dfrac{75-60}{10} = 1.5$  数学:$z = \dfrac{85-80}{5} = 1.0$

zスコアでは英語($1.5$)>数学($1.0$)。クラスの中での立ち位置で見ると、英語のほうが優れた成績だったとわかります。生の点数だけ見ていると逆の判断をしてしまうところでした。

2. 偏差値 ─ zスコアを使いやすく直したもの

zスコアは便利ですが、$-2$〜$+2$ あたりの小数で、マイナスも出るため日常では少し扱いづらい。そこで、zスコアを平均50・標準偏差10のものさしに乗せ替えたものが、おなじみの偏差値です。

FORMULA

$$\text{偏差値} = 10z + 50$$ zスコアを $10$ 倍して $50$ を足すだけ。これも1次式なので、偏差値の平均は $50$、標準偏差は $10$ になります(標準化の逆の発想です)。

EXAMPLE 2(zスコアと偏差値の対応)

平均60点・標準偏差15点のテストでの偏差値を計算します。

得点 $x$zスコア偏差値 $10z+50$
75点$\frac{75-60}{15}=+1.0$60
60点$\frac{60-60}{15}=0$50
45点$\frac{45-60}{15}=-1.0$40

平均ちょうどなら偏差値50、標準偏差1個分上なら偏差値60、1個分下なら偏差値40。「偏差値60=平均より1標準偏差ぶん上」と読めると、数字の意味がぐっと立体的になりますね。

さえちゃん
さえ

偏差値の正体は「お化粧したzスコア」! $z$ を $10$ 倍して $50$ 足しただけ。だから偏差値70は $z=+2$、つまり「平均より標準偏差2個分も上」ってこと。けっこうすごい順位なのが式から見えるね。

3. 変動係数 ─ 単位によらない相対的なばらつき

zスコアが「個々の値の相対化」だったのに対し、変動係数(CV:Coefficient of Variation)はデータセット全体のばらつきの相対化です。標準偏差 $s$ を平均 $\bar{x}$ で割って求めます。

FORMULA

$$\text{CV} = \frac{s}{\bar{x}}$$ $100$ 倍してパーセントで表すこともよくあります:$\text{CV}(\%) = \dfrac{s}{\bar{x}} \times 100$。

なぜ変動係数が必要なのか

標準偏差は「絶対的なばらつき」を、もとの単位のまま表します。だから「標準偏差50万円」だけでは、それが大きいのか小さいのか判断できません。平均がいくらかによるからです。標準偏差を平均で割ると、分子・分母の単位(万円)が打ち消し合って単位のない比率になり、規模の違うデータどうしを公平に比べられます。

EXAMPLE 3(規模の違う支店の比較)

A支店:平均売上500万円・標準偏差50万円。B支店:平均売上200万円・標準偏差30万円。どちらが相対的にばらついているでしょう?

A支店:$\text{CV} = \dfrac{50}{500} = 0.10\ (10\%)$  B支店:$\text{CV} = \dfrac{30}{200} = 0.15\ (15\%)$

標準偏差だけ見るとA(50万円)のほうが大きく見えますが、規模をそろえるとB支店(15%)のほうが相対的に揺れているとわかります。A支店は規模が大きいぶん、絶対値の標準偏差が大きく見えていただけ、というわけです。

POINT

標準偏差は「絶対的なばらつき」、変動係数は「相対的なばらつき」。規模や単位の違うデータのばらつきを公平に比べたいときは変動係数を使います。ただし、平均が $0$ に近い・負の値を含むデータ(気温や赤字を含む利益など)では割り算が破綻するため使えません。

4. 指数化 ─ 基準を100にそろえて推移を見る

最後は指数化です。ある時点(または対象)を基準=100と決め、ほかの値がその何倍かを $100$ 倍で表す方法です。物価指数や株価指数でおなじみの考え方ですね。基準とする値を $x_0$ とすると、次のようになります。

FORMULA

$$\text{指数} = \frac{x}{x_0} \times 100$$ 基準の年(または対象)では $\dfrac{x_0}{x_0}\times 100 = 100$ になります。$110$ なら基準より $10\%$ 増、$90$ なら $10\%$ 減、と直感的に読めるのが利点です。

EXAMPLE 4(売上の指数化)

ある店の年間売上(万円)を、2020年を基準($x_0=2500$)として指数化します。

売上指数(2020=100)読み方
20202500100基準
20212750110基準比 +10%
20223000120基準比 +20%
2023225090基準比 −10%

たとえば2022年は $\dfrac{3000}{2500}\times 100 = 120$。生の金額を追うより、「基準から何%動いたか」が一目でわかります。単位の違う複数の系列(売上と来客数など)を $100$ にそろえて重ねれば、伸び方の比較もしやすくなります。

5. 3つの道具の使い分け

似たような「相対化」の道具がそろったので、いつ何を使うかを整理しておきましょう。

道具そろえるもの使いどころ
標準化(zスコア)$z=\dfrac{x-\bar{x}}{s}$平均0・標準偏差1個々の値の相対的な位置を比べる
偏差値$10z+50$平均50・標準偏差10zスコアを読みやすく表示する
変動係数$\dfrac{s}{\bar{x}}$単位を消した比率規模の違うデータのばらつきを比べる
指数化$\dfrac{x}{x_0}\times 100$基準=100基準からの増減・推移を比べる
POINT

合言葉は「個々の位置なら標準化、全体のばらつきなら変動係数、推移なら指数化」。どれも生の数字に潜む「規模・単位のワナ」を外してくれる道具です。比較の前に、まず土俵をそろえる──この習慣が2級以降の分析でずっと効いてきます。

さえちゃん
さえ

標準化・偏差値・変動係数・指数化、ぜんぶ「比べるために土俵をそろえる」仲間だよ。zスコアの式 $z=\frac{x-\bar{x}}{s}$ は第2章の正規分布でも大活躍するから、今のうちに手で書けるようにしておいてね!

まとめ

第1章 1-6、ポイントを整理します。

次回 1-7 5数要約と外れ値 では、最小値・四分位数・最大値の5つでデータの輪郭をつかみ、$1.5\times \text{IQR}$ で外れ値を判定する方法、そして箱ひげ図との対応を学びます。