第6章 6-1 / 正規性・適合度・独立性のχ²検定

正規Q-Qプロット — 正規性を目で確かめる

このページで学ぶこと

第6章のテーマは「分布の形を検定でチェックする」こと。その入り口として、まずは目で見て正規分布らしさを確かめる道具、正規Q-Qプロットを学びます。Q-Q は quantile–quantile(分位数どうし)の略。手元のデータの分位数と、正規分布が理論的に持つ分位数を対応させて散布図にする、という方法です。

ポイントはたったひとつ──点が直線にのれば正規分布らしい、裾で大きく反れば非正規。t検定や回帰分析の多くは「データが正規分布に従う」という前提に立っているので、その前提が妥当かを手早く確認できるこの図は、実務でも試験でもよく出てきます。曲がり方のパターンと読み取り方を、図と一緒に身につけましょう。

さえちゃん
さえ

「このデータ、正規分布に従ってるって言っていいの?」──検定を使う前に毎回ぶつかる疑問だよね。Q-Qプロットは、その答えをパッと目でくれる便利な図なの。難しい計算はいらなくて、「点が一直線に並ぶか」を見るだけ。今日はその見方をマスターしよう!

1. なぜ正規性を確かめたいのか(直感)

これまで学んできた $t$ 検定や母平均の区間推定、回帰分析などは、その多くが「データ(や誤差)が正規分布に従う」という前提のうえに組み立てられていました。前提が大きく崩れていると、計算した $p$ 値や信頼区間が当てにならなくなってしまいます。だからこそ「本当に正規分布とみなしてよいか?」を確認するステップが大切なのです。

確認のしかたには大きく2つあります。ひとつは数値で機械的に判定する方法(次の 6-2 歪度・尖度 や、後の適合度検定)。もうひとつが、本ページの図で目視する方法です。図はあいまいさが残る代わりに、「どこがどうズレているか」を一目で教えてくれます。検定の前の下見として、まずはこちらが活躍します。

分位数(クォンタイル)という共通の物差し

Q-Qプロットの主役は分位数です。分位数とは「下から何割の位置にある値か」を表す数。たとえば中央値は 0.5 分位数(下から50%の位置)、第1四分位数は 0.25 分位数です。データを小さい順に並べたとき、各データがおよそ何割の位置にいるか――これを標本分位数と呼びます。

一方、正規分布にも「下から何割の位置にこの値が来る」という理論分位数があります。Q-Qプロットは、この2つの分位数――データ側と理論側――を突き合わせて、ズレ具合を見る図なのです。

2. 正規Q-Qプロットの作り方

作り方を手順で押さえましょう。難しい数式はなく、「順位づけ → 位置の割合 → 正規分布の値に変換 → 散布図」という4ステップです。

POINT

正規Q-Qプロットの作り方(手順)

  1. データ $n$ 個を小さい順に並べ替え、$x_{(1)} \le x_{(2)} \le \dots \le x_{(n)}$ とする($x_{(i)}$ を順序統計量と呼びます)。
  2. $i$ 番目のデータがおよそ下から何割の位置かを表すプロッティング・ポジション $p_i$ を割り当てる。よく使われるのは $$p_i = \frac{i - 0.5}{n}$$ のような式です(端で $0$ や $1$ にならないよう調整したもの)。
  3. 標準正規分布で「下側確率が $p_i$ になる値」、すなわち理論分位数 $z_i$ を求める。これは累積分布関数 $\Phi$ の逆関数を使って $$z_i = \Phi^{-1}(p_i)$$ と書けます(正規分布表を逆引きする操作です)。
  4. 横軸に理論分位数 $z_i$、縦軸に標本分位数 $x_{(i)}$ をとって、点 $(z_i,\, x_{(i)})$ を散布図に打つ。

横軸と縦軸を逆にとる流儀もありますが、考え方は同じです。要は「理論ではこの位置に来るはずの値」と「実際にデータがその位置に持っていた値」を並べる、ということ。両者がぴたりと比例していれば、点はきれいな直線に並びます。

EXAMPLE 1(手順を数値で)

$n=8$ 個のデータ $52,55,58,61,63,66,70,75$ で、各点の座標を作ってみます。すでに小さい順なので、$i$ 番目に $p_i=\dfrac{i-0.5}{8}$ を割り当て、$z_i=\Phi^{-1}(p_i)$ を正規分布表から読み取ります。

$i$$x_{(i)}$$p_i=\dfrac{i-0.5}{8}$$z_i=\Phi^{-1}(p_i)$
1520.0625$-1.53$
2550.1875$-0.89$
3580.3125$-0.49$
4610.4375$-0.16$
5630.5625$0.16$
6660.6875$0.49$
7700.8125$0.89$
8750.9375$1.53$

この $(z_i,\,x_{(i)})$ を打った点がほぼ一直線に並べば「正規分布とみてよさそう」、特定の場所でぐにゃっと曲がれば「そこの形が正規からずれている」と読みます。実際の作図はソフトに任せれば一瞬ですが、こうして1点ずつ作ると「何を比べている図なのか」が腑に落ちますね。

さえちゃん
さえ

$p_i$ にわざわざ $-0.5$ が入ってるの、不思議じゃない? もし単純に $\dfrac{i}{n}$ にしちゃうと、一番大きいデータで $p_n=1$ になって、$\Phi^{-1}(1)=+\infty$ になっちゃうの! 端っこを無限に飛ばさないための、ちょっとした知恵だよ。

3. 直線にのる/のらないをどう読むか

ここがいちばん大事なところ。なぜ「点が直線にのれば正規分布」と言えるのかを確かめておきます。

もしデータが平均 $\mu$、標準偏差 $\sigma$ の正規分布に従うなら、標本分位数 $x_{(i)}$ は、標準正規分布の理論分位数 $z_i$ をちょうど $\sigma$ 倍して $\mu$ だけずらした値になるはずです。式で書くと

FORMULA

$$x_{(i)} \approx \mu + \sigma\, z_i$$ これは横軸 $z_i$、縦軸 $x_{(i)}$ の1次関数(直線)です。切片が $\mu$、傾きが $\sigma$ にあたります。だから正規分布なら点は直線に並び、しかもその直線の傾き・切片が平均と標準偏差を表す、というわけです。

逆に言えば、点が直線から系統的に反れているということは、$x_{(i)}$ と $z_i$ が単純な比例関係になっていない=正規分布ではない、というサインです。とくに分布の裾(両端)で点がどちらに曲がるかを見ると、非正規の種類まで読み取れます。

曲がり方のパターン

POINT

Q-Qプロットの代表的な読み取りパターンです(縦軸=データ、横軸=理論分位数の場合)。

  • 点がほぼ直線:正規分布とみてよい。
  • 右上が上に跳ね、左下が下に垂れ下がる(Sを寝かせた/全体が反り返る形):両裾とも理論より外側に大きく出ている=裾が重い分布(とがっていて外れ値が出やすい)。
  • 右上が下に寝て、左下が上に寄る(逆の反り):両裾とも理論より内側に収まる=裾が軽い分布(平たく外れ値が出にくい)。
  • 右上が上に大きく跳ねる(右側だけ反る)右裾が重い=正の歪み(右に長い裾。例:所得分布)。
  • 左下が下に大きく垂れる(左側だけ反る)左裾が重い=負の歪み(左に長い裾)。

コツは「点が直線より上にあれば、その位置のデータは理論より大きい値」と読むこと。たとえば右端の点が直線より大きく上に跳ねていれば、いちばん大きいデータが正規分布の想定よりさらに大きい――つまり右裾が重い、と判断できます。歪度・尖度(6-2)の正負と、この曲がり方は対応しています。

直線にのる 正規分布らしい 右上が跳ねる 右裾が重い(正の歪み) 縦軸:標本分位数 横軸:理論分位数 点が直線より上 =理論より大きい値

左:点が破線(基準直線)にのる=正規分布らしい。右:右上が直線より上に跳ねる=右裾が重い(正の歪み)。

4. 使うときの注意点

Q-Qプロットは便利ですが、万能ではありません。読み違えないための注意を押さえておきましょう。

POINT
  • 少数データではブレる:$n$ が小さいと、正規分布から取ったデータでも点が多少ガタつきます。端の1〜2点が少し反れただけで「非正規だ」と決めつけないこと。
  • 判定は主観的:「直線にのっている」かどうかの線引きには個人差が出ます。厳密にイエス/ノーを言いたいときは、適合度の検定(6-3)など数値の手法を併用します。
  • 中央より裾を見る:中央付近は多少ズレても大きな問題になりにくい一方、裾の振る舞い(外れ値・歪み)は検定結果に効きやすいので、両端の曲がりを重点的にチェックします。

つまりQ-Qプロットは「正規性を最終判定する裁判官」ではなく、「まず形を眺めて当たりをつける下見役」。図で大まかな傾向をつかみ、必要なら数値的な指標や検定で裏を取る、という二段構えがおすすめです。

5. 結論と使いどころ

正規Q-Qプロットの読み方を、ひとことで言えば「直線なら正規、裾が反れば非正規」。そして反り方が、その分布が正規からどうずれているか(裾が重い・軽い、右に歪む・左に歪む)を教えてくれます。

POINT

試験では、Q-Qプロットの図を見せて「この分布はどんな特徴か」を問う形がよく出ます。覚えておくべき対応は次の通りです。

  • 右上が直線よりに跳ねる → 右裾が重い → 正の歪み
  • 左下が直線よりに垂れる → 左裾が重い → 負の歪み
  • 両端とも外側に反る(全体がS字に反り返る) → 裾が重い(とがった分布)
  • 両端とも内側に寄る → 裾が軽い(平たい分布)

まとめ

第6章 6-1、ポイントを整理します。

次回 6-2 歪度・尖度 では、この「曲がり方」を数値で表す指標――歪度と尖度――を学びます。図で見た「裾の重さ」「左右の偏り」が、そのまま数値の符号と大小に対応します。今日のパターンと結びつけながら読むと、ぐっと理解が深まりますよ。

さえちゃん
さえ

Q-Qプロットは「直線にのるか?」を見るだけ──シンプルでしょ? 反る方向で正規からのズレの種類までわかるのがミソだよ。次は同じ話を数字で言い換える歪度・尖度。図と数字、両方で正規性を語れるようになろう!