歪度・尖度 — 正規性の数値チェック
前回(6-1 正規Q-Qプロット)は、分布の形を図で確かめました。今回はそれを数値で表す2つの指標、歪度(わいど)と尖度(せんど)を学びます。歪度は左右の偏り、尖度はとがり具合と裾の重さを測る物差しです。
どちらも第2章 2-6 モーメント で定義した「標準化したモーメント」。本ページではその定義を再掲しつつ、正規分布が歪度 $0$・尖度 $3$(超過尖度 $0$)という基準点になることを軸に、符号や大小が分布の形とどう対応するか、そして正規性の簡易チェックにどう使うかを整理します。Q-Qプロットの「曲がり方」と数字を結びつけて、正規性を図と数字の両面から語れるようになりましょう。
Q-Qプロットで「右裾が重そう」と思っても、見た目だけだと心もとないよね。歪度と尖度は、その印象を1つの数字に変えてくれる指標なの。基準はぜんぶ正規分布。「正規だと歪度0・尖度3」――まずこれを合言葉にして読み進めよう!
1. 歪度・尖度とは(直感と再掲)
平均と分散は、分布の「位置」と「広がり」を教えてくれます。でも、それだけでは形まではわかりません。同じ平均・同じ分散でも、片側に裾を引いていたり、中央がとがって外れ値が出やすかったり――そんな「形の個性」を数値にしたのが歪度と尖度です。
2-6 で見たように、これらは中心モーメント $E[(X-\mu)^k]$ を標準偏差で割って無次元化したもの。$k=3$ が歪度、$k=4$ が尖度です。定義を再掲します。
歪度(skewness):3次の標準化モーメント $$\text{歪度} = \frac{E\big[(X-\mu)^3\big]}{\sigma^3}$$ 尖度(kurtosis):4次の標準化モーメント $$\text{尖度} = \frac{E\big[(X-\mu)^4\big]}{\sigma^4}$$ いずれも標準偏差 $\sigma$ のべき乗で割ることで無次元になり、分布のスケール(単位や広がり)によらず形だけを表します。
なぜ $\sigma$ で割るのか――それは「ものさしをそろえる」ためです。たとえば3次モーメント $E[(X-\mu)^3]$ は単位が「$X$ の3乗」で、データを2倍に引き伸ばすと値が8倍になってしまう。これでは偏りの大きさを比べられません。$\sigma^3$ で割れば、伸び縮みの影響が打ち消され、純粋な「形のゆがみ具合」だけが残るのです。
2. 正規分布という基準点
歪度・尖度の値は、つねに正規分布を基準にして読みます。正規分布は左右対称でとがり具合も標準的な「形の基準器」だからです。
正規分布の歪度・尖度
- 歪度 $=0$:左右対称なので、偏りはゼロ。
- 尖度 $=3$:とがり具合の標準値がちょうど $3$。
歪度が $0$ なのは直感的ですね。$X-\mu$ が正の側と負の側で対称なら、それを3乗(奇数乗で符号が残る)して足し合わせると、プラスとマイナスがちょうど打ち消し合ってゼロになります。一方、尖度が「$3$」という半端な数になるのは正規分布特有の事情で、これは計算するとそうなる、と受け止めてかまいません。
超過尖度(−3する流儀)
尖度の基準が $3$ だと、「大きい/小さい」を判断するのに毎回 $3$ と比べることになります。それなら最初から $3$ を引いて、正規分布をゼロにそろえてしまおう――こうして作るのが超過尖度です。
超過尖度(excess kurtosis): $$\text{超過尖度} = \frac{E\big[(X-\mu)^4\big]}{\sigma^4} - 3$$ $3$ を引くことで、正規分布の超過尖度はちょうど $0$ になります。
統計ソフトや問題文で「尖度」と書いてあっても、$-3$ 済みの超過尖度を指していることが少なくありません。「ここでの基準は $0$ なのか $3$ なのか」を毎回確認するクセをつけると、符号や大小の読み間違いを防げます。
3. 符号・大小と分布の形
ここが本ページの核心です。歪度・尖度の符号や大小が、分布のどんな形に対応するかを押さえます。
歪度:左右の偏り
- 歪度 > 0(正の歪み):右に長い裾。山は左に寄り、平均が中央値より右にくる傾向(例:所得・待ち時間)。
- 歪度 = 0:左右対称(例:正規分布)。
- 歪度 < 0(負の歪み):左に長い裾。山は右に寄り、平均が中央値より左にくる傾向。
覚え方のコツは「裾を引いている方向と符号が一致する」。右に裾→正の歪度です。山がどちらに寄っているかではなく、裾がどちらに伸びているかで判断するのが間違えないポイント。これは6-1で見た「右上が跳ねる=右裾が重い=正の歪み」とぴたり対応します。
尖度:とがり具合・裾の重さ
- 超過尖度 > 0(尖度 > 3):正規分布よりとがって裾が重い。中央が鋭く、外れ値が出やすい。
- 超過尖度 = 0(尖度 = 3):正規分布と同程度。
- 超過尖度 < 0(尖度 < 3):正規分布より平たく裾が軽い。外れ値が出にくい。
尖度はつい「中央のとがり具合」だけだと思いがちですが、4次モーメントは平均から遠い値を強く拾うので、裾の重さ(外れ値の出やすさ)を測っているとみるのが実態に近いです。とがって見える分布は同時に裾も重い、とセットで覚えておきましょう。これも6-1の「両端が外に反る=裾が重い」と対応します。
上段:歪度の符号と裾の向き(右裾→正、左裾→負)。下段:超過尖度ととがり具合(とがって裾が重い→正、平たく裾が軽い→負)。
4. データ(標本)からの計算と正規性チェック
2-6 では確率変数 $X$ についての定義でしたが、実データを扱うときは平均 $\mu$ を標本平均、$E[\cdot]$ をデータの平均で置き換えて計算します。手元の $n$ 個のデータ $x_1,\dots,x_n$(平均 $\bar{x}$、標準偏差 $s$)に対して、基本的な考え方は次の通りです。
標本の歪度・尖度(基本形): $$\text{標本歪度} = \frac{\dfrac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^3}{s^3},\qquad \text{標本尖度} = \frac{\dfrac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^4}{s^4}$$ 分子は3乗・4乗の偏差の平均、分母は標準偏差のべき乗。考え方は確率変数のときとまったく同じで、期待値を「データの平均」に置き換えただけです。
なお、ソフトによっては小標本の偏りを補正する別の式(不偏化した係数)を使うため、同じデータでも値が少し変わることがあります。試験では基本形の考え方を押さえておけば十分です。
11個のデータ $2,3,3,4,4,4,5,5,6,8,11$ について、正規分布とみてよいか歪度・尖度で当たりをつけます。平均は $\bar{x}=5$、標準偏差($n$ で割る流儀)は $s\approx 2.449$ です。3乗・4乗の偏差の平均を計算すると、
$$\text{標本歪度} \approx 1.22,\qquad \text{標本尖度} \approx 3.77\ (\text{超過尖度} \approx 0.77)$$
歪度が $+1.2$ とはっきり正なので、このデータは右に裾を引いています(実際 $8,11$ という大きめの値が右側に伸びていますね)。超過尖度も $+0.77$ とやや大きく、正規分布よりとがって裾が重い形。つまり「正規分布とみなすには右への歪みが強すぎる」と判断できます。Q-Qプロットなら右上が直線より上に跳ねるはずで、図と数字がきれいに一致します。
正規性チェックの目安は「歪度・尖度が0(超過尖度)にどれだけ近いか」。ピッタリ0じゃなくてOK、0の近くなら正規とみていい、というゆるい使い方だよ。きっちり判定したいときは6-3の適合度検定にバトンタッチ! 歪度・尖度は下見の数字って覚えてね。
5. 結論と使いどころ
歪度・尖度は、分布の形を1つの数字に圧縮してくれる便利な指標です。基準はつねに正規分布――歪度 $0$、尖度 $3$(超過尖度 $0$)。この基準からのズレの向きと大きさで、分布の個性を読み取ります。
試験での着眼点をまとめます。
- 歪度の符号:正なら右裾(右に長い)、負なら左裾。$0$ なら左右対称。
- 尖度:$3$ より大(超過尖度が正)なら正規よりとがって裾が重い、$3$ より小なら平たい。
- 正規性の目安:歪度がほぼ $0$、超過尖度がほぼ $0$ なら正規分布とみてよい。
- 「尖度」の定義に注意:基準が $0$(超過尖度)か $3$(そのまま)か、問題文・ソフトの流儀を確認する。
まとめ
第6章 6-2、ポイントを整理します。
- 歪度:$\dfrac{E[(X-\mu)^3]}{\sigma^3}$。左右の偏りを測る。正なら右裾、負なら左裾。
- 尖度:$\dfrac{E[(X-\mu)^4]}{\sigma^4}$。とがり具合・裾の重さを測る。$-3$ して超過尖度。
- 基準は正規分布:歪度 $0$、尖度 $3$(超過尖度 $0$)。
- 形との対応:右裾→正の歪度、とがって裾が重い→正の超過尖度。Q-Qプロットの曲がり方と一致。
- 標本での計算:期待値を「データの平均」に置き換えるだけ。$\dfrac{1}{n}\sum(x_i-\bar{x})^3 / s^3$ など。
- 使いどころ:正規性の簡易チェック(下見)。きっちり判定したいときは適合度検定を併用。
次回 6-3 適合度の検定 では、いよいよ「正規分布とみなしてよいか」を検定として白黒つける方法に進みます。図(6-1)と数字(6-2)でつけた当たりを、$\chi^2$ 統計量を使って統計的に判定する――第6章の本丸です。
歪度・尖度、これで図と数字が手を結んだね! 「右裾なら正、とがって裾が重ければ超過尖度が正」――Q-Qプロットの反り方とセットで覚えると最強だよ。次はχ²でビシッと検定するよ。第6章の本番、いっしょにがんばろう!