第3章 3-1 / 統計の基礎

データを要約する ― 記述統計

このページで学ぶこと

第3章「統計の基礎」では、DS検定の出題範囲でもっとも配点比重の大きい「統計数理基礎」を扱います。本ページ(3-1)では、そのうちデータを要約する記述統計のパートを担当します。平均・中央値・最頻値、分散・標準偏差・四分位・パーセンタイル、母集団と標本の違い、尺度水準(名義・順序・間隔・比例)、相関係数の分子分母、対数グラフの使い分けまで、まとめて整理していきます。

確率や確率分布(順列組合せ、条件付き確率、ベイズの定理、正規分布など)は、次のページ「3-2. 確率と確率分布」でカバーします。2ページで統計数理基礎14項目をすべて押さえる構成なので、両方合わせて読んでください。

1. 代表値 ― 平均・中央値・最頻値

データを要約する第一歩は、たくさんの数値を「ひとつの代表的な値」にまとめることです。この代表的な値を代表値^※1と呼び、目的に応じて3種類を使い分けます。

平均値は、すべての値を合計してデータの個数で割ったものです。もっとも馴染みのある代表値ですが、外れ値の影響を強く受けるという弱点があります。中央値は、データを小さい順に並べたときにちょうど真ん中に来る値です(データが偶数個のときは、真ん中の2つの平均を取ります)。外れ値に引っ張られにくいのが特徴です。最頻値は、もっとも多く出現する値のことで、質的データにも使える唯一の代表値です。

EXAMPLE ― 年収データで代表値が食い違う

社員9人の年収が300万円台〜500万円台に収まっていたところ、社長1人だけ年収5,000万円だったとします
この10人の平均年収は、社長の年収に引っ張られて実態よりかなり高く出ます
一方中央値は、社長を含めても真ん中の順位の人の年収のままなので、実感に近い金額になります

分布の形と代表値の位置関係にも規則性があります。左右対称な分布では平均・中央値・最頻値がほぼ一致しますが、年収データのように右に裾を引く分布(一部の高額データが平均を押し上げる分布)では、平均>中央値>最頻値の順になります。「平均だけ見れば実態がわかる」という思い込みは危険で、分布の形とセットで代表値を選ぶ視点がDS検定でも問われます。

POINT

平均・中央値・最頻値の算出方法の違いを説明できることは、DS検定の必須スキルチェック項目です。平均は「合計÷個数」、中央値は「並べ替えて真ん中」、最頻値は「もっとも多い値」。算出方法そのものが異なる点を、まず正確に押さえましょう。

さえ

「平均年収」のニュースを見て「え、自分低すぎ…」って思ったことない? それ、一部の高所得者に平均が引っ張られてるだけかも。そういうときこそ中央値を確認するクセをつけよう!

2. 散らばりの指標 ― 分散・標準偏差・四分位・パーセンタイル

代表値だけでは、データの姿は半分しかわかりません。平均が同じでも、値がぎゅっと集まっているデータと、大きくばらついているデータでは、まったく性質が異なるからです。この「散らばり具合」を数値化するのが分散と標準偏差です。

分散は、各データと平均との差(偏差)を2乗して平均したものです。2乗するのは、偏差の合計がつねに0になってしまう問題を避けるためと、大きくずれた値の影響を強調するためです。ただし分散は元のデータの単位の2乗(円や点の2乗)になってしまい直感的に扱いにくいため、平方根を取って元の単位に戻したものが標準偏差です。標準偏差が大きいほど、データは平均から広く散らばっていることを意味します。

分散・標準偏差とは別に、データの散らばりを「位置」で捉える指標が四分位数とパーセンタイルです。データを小さい順に並べて4等分する境界を、下から第1四分位数(Q1・25%点)、第2四分位数(Q2・50%点、中央値と同じ)、第3四分位数(Q3・75%点)と呼びます。100等分して考えたものがパーセンタイル^※2で、たとえば「90パーセンタイル」は下から90%の位置にある値を指します。Q3からQ1を引いた四分位範囲(IQR)は、外れ値の影響を受けにくい散らばりの指標として、箱ひげ図や外れ値検出に使われます。

指標	何を表すか	外れ値への強さ	主な用途
分散・標準偏差	平均からの散らばりの大きさ	弱い(影響を受けやすい)	統計的な散らばりの一般的指標
四分位数・IQR	データの位置による区切り	強い(影響を受けにくい)	箱ひげ図、外れ値の判定
パーセンタイル	下から何%の位置にあるか	強い	偏差値・順位の相対評価

POINT

分散、標準偏差、四分位、パーセンタイルを目的に応じて使い分けることがDS検定の必須項目です。「全体の散らばりの大きさ」を知りたいなら標準偏差、「外れ値に強い位置の指標」が欲しいなら四分位数、と覚えておきましょう。

3. 母集団と標本 ― 平均・分散はどちらのものか

統計では、「本当に知りたい対象全体」である母集団^※3と、そこから抜き出して実際に観測する一部である標本を区別します。全国の消費者の購買傾向を知りたくても、全員を調査するのは現実的でないため、一部の標本を調べて母集団の姿を推測するのが統計分析の基本の流れです。

ここで注意すべきなのが、母平均と標本平均、不偏分散と標本分散はそれぞれ別物という点です。母集団全体の平均を母平均(μ、ミュー)、実際に手元にある標本から計算した平均を標本平均(x̄、エックスバー)と呼びます。標本平均は、どの標本を抽出したかによって値が変動する確率変数であり、母平均そのものではありません。

分散についても同様の区別があります。標本のデータだけを使い、偏差の2乗和をデータの個数nで割ったものを標本分散と呼びます。一方、標本から母集団の分散を推測する目的で、偏差の2乗和をnではなく(n−1)で割ったものを不偏分散と呼びます。

用語	計算式(概念)	割る数	役割
標本分散	偏差の2乗和 ÷ n	データの個数 n	手元の標本そのものの散らばりを記述する
不偏分散	偏差の2乗和 ÷ (n−1)	自由度 n−1	母集団の分散を偏りなく推測する

なぜ不偏分散はnではなくn−1で割るのでしょうか。標本平均は、母平均そのものではなく、標本データに合わせて「ちょうどよく」計算された値です。そのため、標本平均からの偏差を使って分散を計算すると、真の母分散よりもわずかに小さく見積もられてしまう傾向があります。この偏りを補正するために、割る数を1つ小さくして(n−1)にすることで、期待値が母分散に一致するように調整しているのです。この(n−1)は自由度^※4と呼ばれます。ExcelのVAR.S関数やPythonのpandasの標準的な分散計算は、通常この不偏分散を採用しています。

POINT

母(集団)平均と標本平均、不偏分散と標本分散はそれぞれ異なることを説明できるのがDS検定の必須項目です。「標本から母集団を推測するときは、分散をn−1で割る(不偏分散を使う)」という関係を押さえておきましょう。

さえ

「なんでn-1で割るの?」は、みんな一度はつまずくポイント。丸暗記でもいいから「標本から母集団を推測するときはn-1」って覚えちゃえば、試験では十分戦えるよ!

4. 尺度水準 ― 4つのものさし

データにどんな計算や集計が許されるかは、そのデータが「何を表しているか」によって変わります。この分類が尺度水準^※5で、名義尺度・順序尺度・間隔尺度・比例尺度の4種類があります。

尺度	特徴	具体例	できる計算
名義尺度	区別のみ。順序に意味なし	血液型、性別、都道府県名	度数・最頻値
順序尺度	順序に意味があるが間隔は不均等	満足度5段階、順位	中央値・順序の比較
間隔尺度	等間隔だが0に「無い」という意味はない	摂氏温度、西暦年	平均・差の計算
比例尺度	等間隔かつ0が「無い」を意味する	身長、体重、金額、来店数	平均・差・比率すべて

間隔尺度と比例尺度の違いは特につまずきやすいポイントです。摂氏20℃は摂氏10℃より10度高い(差の計算は意味を持つ)ですが、「20℃は10℃の2倍暑い」とは言えません。0℃は「温度が無い」ことを意味しないからです。一方、売上0円は「売上が無い」ことを意味し、8万円は4万円のちょうど2倍と言えます。この「0に意味があるかどうか」が、比率計算(何倍か)をしてよいかどうかの分かれ目になります。

POINT

名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できることはDS検定の必須項目です。「区別だけか」「順序があるか」「等間隔か」「0に意味があるか」という4つの問いで整理すると覚えやすくなります。

5. 2変数の関係を数値化する ― ピアソンの相関係数

ここまでは1つの変数を要約する方法でしたが、実務では「広告費と売上」のように、2つの変数の関係性を知りたい場面が多くあります。量的変数同士の直線的な関係の強さを−1〜+1の数値で表したものがピアソンの相関係数^※6です。

相関係数を理解するには、まず共分散を押さえる必要があります。共分散は、2つの変数それぞれの偏差(平均からのずれ)を掛け合わせて平均した値です。片方が平均より大きいときにもう片方も平均より大きい傾向があれば共分散はプラスに、逆の傾向があればマイナスになります。ただし共分散はデータの単位に依存してしまう(cmで測るかmで測るかで値が変わる)という欠点があります。

そこで、共分散を2つの変数それぞれの標準偏差の積で割ることで単位の影響を消したものが、ピアソンの相関係数です。

FORMULA

相関係数 r ＝ Xの標準偏差とYの標準偏差の積分の Xの偏差とYの偏差の積の平均(共分散)

分子が「共分散(2変数の一緒の動き方)」、分母が「XとYそれぞれの標準偏差の積(単位をそろえるための調整)」です。この分子・分母の役割分担を説明できることがDS検定で問われます。標準偏差の積で割ることで、値はかならず−1〜+1の範囲に収まります。

値の解釈は、符号が関係の「向き」(正の相関・負の相関)、絶対値が関係の「強さ」を表します。|r|が1に近いほど直線的な関係が強く、0に近いほど直線的な関係が弱いことを意味します。ただし相関係数はあくまで直線的な関係の強さしか捉えられない点に注意が必要です。

EXAMPLE

広告費とWebサイト経由の売上に r=0.82 → 強い正の相関
気温とホットコーヒーの販売数に r=−0.65 → 中程度の負の相関
従業員の誕生月と営業成績に r=0.03 → ほぼ無相関

6. 相関関係と因果関係は違う

相関係数が高いからといって、一方がもう一方の「原因」であるとは限りません。この相関関係と因果関係の違いを説明できることは、DS検定でもっとも重視される必須項目のひとつです。相関は「2つの変数が一緒に動く事実」を示すだけで、なぜそう動くのかという仕組みまでは説明しません。

典型例が疑似相関^※7です。「アイスクリームの売上」と「水難事故の件数」には強い正の相関が見られますが、アイスクリームが水難事故を引き起こすわけではありません。両方に影響する共通の第3の変数、この場合は「気温」が背後に隠れています。データ分析の実務では、相関を見つけたら「本当に因果関係と言えるか、別の変数が両方に影響していないか」を必ず疑う姿勢が求められます。相関から因果へと踏み込む具体的な手法は、3-6「因果推論の基礎」で扱います。

POINT

「相関がある=原因と結果である」と即断しないこと。相関関係はきっかけに過ぎず、因果関係を主張するには、交絡因子の検討や実験計画など、別の裏付けが必要です。

さえ

「相関≠因果」は試験でも実務でも本当によく出てくる考え方。アイスと水難事故の話は鉄板ネタだから、このエピソードごと覚えちゃうのがおすすめ!

7. 量的・質的どちらでも関係の強さを測る

ピアソンの相関係数は、量的変数同士の関係を測る道具でした。では、片方または両方が質的変数(カテゴリデータ)の場合はどうすればよいでしょうか。実は、変数が量的・質的のどちらであっても、関係の強さを数値化する方法が用意されています。

量的変数×量的変数 … ピアソンの相関係数(散布図の直線的な関係の強さ)
質的変数×質的変数 … クロス集計表を作り、クラメールの連関係数などで関連の強さを数値化
質的変数×量的変数 … カテゴリごとの平均値や分散を比較する、相関比を用いる

重要なのは、「量的データしか関係性を測れない」わけではないという発想です。変数の種類に応じて適切な指標を選べば、質的データ同士、あるいは質的・量的が混在するデータ同士でも、関係の強さを定量的に評価できます。

8. 指数関数とlog関数、対数グラフの使い分け

最後に、グラフ表現に関わる重要な数学的知識を扱います。指数関数^※8とは「一定の割合で増え続ける」変化を表す関数(たとえば毎年5%増える売上)で、log関数(対数関数)^※9は指数関数の「逆向きの問い」に答える関数です。「10を何回掛けたらこの数になるか」を求める計算がlog(対数)であり、指数関数とlog関数は互いに逆の関係にあります。

対数の最大の特徴は、掛け算を足し算に変換することです。ある量が10倍、100倍、1000倍と掛け算で増えていくとき、その対数を取ると1、2、3と足し算で増えていきます。この性質のおかげで、桁の大きく異なるデータを同じグラフに描いたり、「一定の割合で増える現象(指数関数的な成長)」をグラフ上で直線として見せたりすることができます。

この性質を利用したグラフが、片対数グラフと両対数グラフです。縦軸だけを対数目盛にしたものが片対数グラフで、毎期一定の割合で成長する売上や人口、感染症の拡大などを描くと、変化が直線として表れ、成長率の変化(傾きが折れた地点)を読み取りやすくなります。縦軸・横軸の両方を対数目盛にしたものが両対数グラフで、べき乗の関係にあるデータの分析などに使われます。目盛りを対数化しない通常のグラフ(線形グラフ)は、絶対量の大小をそのまま比較したいときに向いています。

グラフの種類	対数にする軸	向いている用途
対数化されていないグラフ(線形)	なし	絶対量の大小をそのまま比較したいとき
片対数グラフ	縦軸のみ	一定割合で成長する時系列データの成長率を比較したいとき
両対数グラフ	縦軸・横軸の両方	べき乗の関係やスケールの大きく異なるデータを分析したいとき

POINT

たとえば売上が100円→110円になるのと、10,000円→11,000円になるのは、どちらも「10%の増加」です。通常のグラフでは後者が大きな変化に見えてしまいますが、対数グラフでは同じ高さの変化として公平に表現されます。「割合としての変化を見たいときは対数グラフ」と覚えておきましょう。

さえ

株価チャートとかで「対数目盛」って見たことない? あれ、値動きの「割合」をフェアに見せるためのテクニックなんだよ。派手な演出じゃなくて、ちゃんと意味があるの!

まとめ

3-1では、統計数理基礎14項目のうち記述統計系を中心に整理しました。振り返っておきましょう。

代表値 ― 平均・中央値・最頻値は算出方法が異なり、分布の形によって使い分ける
散らばりの指標 ― 分散・標準偏差は全体の散らばり、四分位・パーセンタイルは外れ値に強い位置の指標
母集団と標本 ― 母平均と標本平均、不偏分散(n−1で割る)と標本分散(nで割る)はそれぞれ別物
尺度水準 ― 名義・順序・間隔・比例の4種類。「順序があるか」「0に意味があるか」で見分ける
ピアソンの相関係数 ― 分子は共分散、分母は標準偏差の積。−1〜+1で直線的な関係を表す
相関と因果の違い ― 相関があっても原因と結果とは限らない。疑似相関に注意する
量的・質的の関係の強さ ― 変数の種類に応じて相関係数・連関係数・相関比などを使い分ける
指数関数とlog関数 ― 対数は掛け算を足し算に変える。片対数・両対数グラフで割合の変化を公平に見る

次のページ「3-2. 確率と確率分布」では、統計数理基礎の残り半分にあたる、順列・組合せ、確率の基本概念、条件付き確率、ベイズの定理、正規分布・二項分布などの確率分布を扱います。記述統計と確率、両方合わせてはじめて統計数理基礎14項目が完成しますので、続けて読んでみてください。

脚注 ─ 用語解説

代表値 … データ全体を代表する1つの値のこと。平均値・中央値・最頻値の総称。↩
パーセンタイル … データを小さい順に並べ、100等分したときに何%の位置にあるかを表す指標。四分位数を100分割に細かくしたもの。↩
母集団と標本 … 母集団は分析で本当に知りたい対象の全体、標本はそこから実際に抜き出して観測する一部のデータのこと。↩
自由度 … 統計量を計算する際に自由に値を取れるデータの数のこと。不偏分散では、平均を1つ計算に使った分だけ自由度が1つ減り、n−1になる。↩
尺度水準 … データの性質にもとづく分類方法。名義尺度・順序尺度・間隔尺度・比例尺度の4種類があり、適用できる計算方法が異なる。↩
ピアソンの相関係数 … 2つの量的変数の直線的な関係の強さを−1〜+1で表す指標。単に「相関係数」と呼ぶ場合も多くはこれを指す。↩
疑似相関 … 2つの変数に直接の因果関係がないにもかかわらず、共通の第3の変数(交絡因子)の影響で相関があるように見える現象。↩
指数関数 … 一定の割合(倍率)で増減し続ける変化を表す関数。毎年一定%で増える売上や人口などがあてはまる。↩
log関数(対数関数) … 「ある数を何回掛けたら目的の数になるか」を求める、指数関数の逆の関係にある関数。掛け算を足し算に変換する性質を持つ。↩