サンプリングとクレンジング
4-2では「データを鵜呑みにしない」姿勢を学びました。本ページ(4-3)では、そのデータがそもそもどうやって集められたか(サンプリング)と、集めたデータの汚れをどう取り除くか(クレンジング)という、より具体的な技術を扱います。標本誤差とサンプリングバイアスの違い、実験計画法の3原則(局所管理化・反復・無作為化)、外れ値・異常値・欠損値への対応の3本柱です。
どれもDS検定で頻出のキーワードであり、実務でデータの信頼性を判断するうえでも欠かせない基礎知識です。ひとつずつ整理していきましょう。
1. 標本誤差とサンプリングバイアスの違い
第3章で学んだとおり、私たちが分析する多くのデータは、母集団全体ではなく、その一部を抜き出した標本です。標本を使う以上、母集団の真の値と標本から計算した値との間には、どうしてもズレが生じます。このズレには、性質の異なる2種類があることを区別しなければなりません。
ひとつは標本誤差※1です。これは、たとえ標本の抽出方法がまったく偏りなく正しく行われていたとしても、「たまたま」抜き出した標本が母集団の縮図とぴったり一致しないことから生じる、避けられない誤差です。標本誤差は、一般に標本のサイズ(データの個数)を大きくすることで小さくできます。
もうひとつはサンプリングバイアス※2(選択バイアス)です。これは、標本の抽出方法そのものに偏りがあるために生じる誤差で、標本のサイズをいくら増やしても解消しません。むしろ、偏った方法でたくさんデータを集めるほど、誤った結論に自信を持ってしまう危険すらあります。
| 観点 | 標本誤差 | サンプリングバイアス |
|---|---|---|
| 原因 | 標本抽出の「偶然のばらつき」 | 抽出方法そのものの「偏り」 |
| サンプル数を増やすと | 小さくなる | 解消しない(むしろ悪化することも) |
| 具体例 | 無作為に選んだ100人の平均身長が、母集団の平均と少しズレる | 駅前だけでアンケートを取り、車通勤者の意見が反映されない |
- 自社アプリの利用者だけにアンケートを取り、「アプリを使わない顧客」の声が反映されない
- 平日の昼間に電話調査を行い、働いている人の意見が抜け落ちる
- Webサイトのレビューを見て商品の評判を判断するが、投稿するのは強い不満か強い満足を持つ人に偏る
標本誤差およびサンプリングバイアス、それぞれの違いについて説明できることはDS検定の必須項目です。「サンプル数を増やせば解決するか」を自分に問い、解決するなら標本誤差、解決しないなら抽出方法自体の偏り(サンプリングバイアス)を疑いましょう。
「アンケート回答数が1万件もあるから信頼できる!」って安心するのは早いかも。回答者が偏ってたら、いくら数を集めてもサンプリングバイアスは消えないんだよね。
2. 実験計画法の3原則 ― 局所管理化・反復・無作為化
サンプリングバイアスを避け、正しく結果を比較するための伝統的な方法論が実験計画法※3です。もともとは農業実験(肥料や品種の効果比較)から発展した考え方ですが、A/Bテストなど現代のビジネス実験にも直結する重要な基礎知識です。実験計画法には、フィッシャーが提唱した3つの基本原則があります。
| 原則 | 内容 | ビジネスでの具体例 |
|---|---|---|
| 局所管理化 | 実験の場をブロック(グループ)に分け、そのブロック内で条件をそろえる | 店舗規模や立地が近い店舗どうしをグループ化してから施策を比較する |
| 反復 | 同じ条件の実験を複数回繰り返し、偶然による誤差の影響を減らす | 1店舗・1日だけでなく、複数店舗・複数週にわたって同じ施策を試す |
| 無作為化 | 実験対象への条件の割り当てを、偏りなくランダムに行う | キャンペーンの対象者をランダムに新施策群と従来施策群に振り分ける |
この3原則の中でも、特にビジネス実務で重要なのが無作為化です。たとえば新しいWebデザインの効果を試すとき、「アクセスの多い曜日だけ新デザインを見せる」といった恣意的な割り当てをしてしまうと、デザインの効果なのか曜日の効果なのかを区別できなくなります。対象をランダムに2群に分ける(A/Bテスト)ことで、既知・未知を問わずさまざまな要因の影響を両群で均等にならし、比較したい条件そのものの効果だけを取り出しやすくなります。
- 局所管理化:新規顧客と既存顧客を分けたうえで、それぞれの中で比較する
- 反復:1日だけでなく2週間にわたって同じ条件でテストを継続する
- 無作為化:サイト訪問者をランダムに「新デザイン表示」と「旧デザイン表示」に振り分ける
実験計画法の基本的な3原則(局所管理化、反復、無作為化)について説明できることはDS検定のスキルチェック項目です。「グループ分け(局所管理化)」「繰り返し(反復)」「ランダムな割り当て(無作為化)」の3つのキーワードとセットで覚えましょう。
A/Bテストで「ランダムに振り分ける」のが大事だってよく聞くと思うけど、それってこの「無作為化」のことなんだよね。名前は難しいけど中身はシンプル!
3. 外れ値・異常値・欠損値への対応
サンプリングの方法を整えても、実際に集まったデータには「汚れ」がつきものです。この汚れを取り除き、分析に使える状態に整える作業をデータクレンジング※4と呼びます。クレンジングで扱う代表的な3つの問題が、外れ値・異常値・欠損値です。
外れ値※5とは、他の大部分のデータから大きく離れた値のことです。必ずしも誤りとは限らず、まれに発生する正当な値(たとえば超大口の注文)であることもあります。異常値※6は、入力ミスやシステムの不具合など、明らかに誤りと判断できる値のことです(たとえば年齢が「−5歳」や「300歳」など)。欠損値※7は、本来記録されるべきデータが記録されていない、空欄の状態を指します。
| 種類 | 定義 | 代表的な対応 |
|---|---|---|
| 外れ値 | 大部分から大きく離れた値(誤りとは限らない) | 発生理由を確認し、除去するか残すかを判断する |
| 異常値 | 入力ミスなど、明らかに誤りである値 | 除去する、または正しい値に修正する |
| 欠損値 | 記録されるべきデータが空欄・未記録の状態 | 除去する、平均値などで補完(変換)する |
対応の基本は、指示のもと適切に検出と除去・変換などの対応ができることです。外れ値をむやみに削除すると、実は重要な兆候(不正利用や新たな顧客層など)を見逃してしまう場合があります。逆に異常値をそのまま残すと、平均や分散などの基本統計量が大きく歪んでしまいます。欠損値についても、単純に行ごと削除してよい場合と、平均値や中央値で補完すべき場合、欠損していること自体に意味がある場合(未回答が多い設問など)があり、機械的に一律の処理をするのではなく、データの性質と分析の目的に応じて判断する必要があります。
- 注文金額が他の1000倍というレコードがあった → 発生理由を確認したら法人向けの大口受注と判明し、外れ値として残す
- 年齢の欄に「−5」という値がある → これは明らかな入力ミス(異常値)であり、確認のうえ除去または修正する
- アンケートの年収欄が5%空欄だった → 空欄のまま除外するか、他の設問と組み合わせて推測して補完するかを検討する
外れ値・異常値・欠損値とは何かを理解し、指示のもと適切に検出と除去・変換などの対応ができることはDS検定の必須項目です。3つの言葉の定義の違い(離れているだけか、明らかな誤りか、そもそもデータが無いか)を正確に区別しましょう。
外れ値だからって脊髄反射で消しちゃダメだよ。「なんでこの値になったのか」を確認してからじゃないと、大事な発見を消しちゃうかも。ここはよく引っかかるポイントだから注意!
まとめ
4-3では、データの集め方(サンプリング)と、集めたデータの整え方(クレンジング)の基礎を整理しました。振り返っておきましょう。
- 標本誤差とサンプリングバイアス ― 標本誤差は偶然のズレでサンプル数を増やせば小さくなるが、サンプリングバイアスは抽出方法自体の偏りでサンプル数を増やしても解消しない
- 実験計画法の3原則 ― 局所管理化(グループ分け)・反復(繰り返し)・無作為化(ランダムな割り当て)
- 外れ値・異常値・欠損値 ― それぞれの定義を区別し、指示のもと適切に検出・除去・変換の対応を行う
次のレッスンでは、クレンジングを経て整ったデータを、実際に分析やモデリングに使える形へと加工する技術(4-4. データ加工と特徴量)を扱います。標準化やダミー変数化など、統計・機械学習の土台となる処理を見ていきましょう。
- 標本誤差 … 標本の抽出自体は偏りなく行われていても、たまたま抜き出した標本が母集団と完全には一致しないために生じる誤差。標本サイズを大きくすると小さくなる。↩
- サンプリングバイアス … 標本の抽出方法そのものに偏りがあるために生じる誤差。標本サイズを増やしても解消しない。選択バイアスとも呼ばれる。↩
- 実験計画法 … 実験の結果を正しく比較・評価するための計画の立て方に関する方法論。局所管理化・反復・無作為化の3原則が基本とされる。↩
- データクレンジング … 収集したデータに含まれる誤りや欠落、表記のゆれなどを検出し、分析に使える状態に整える作業のこと。データクリーニングとも呼ばれる。↩
- 外れ値 … 他の大部分のデータから大きく離れた値のこと。入力ミスなどの誤りとは限らず、まれに発生する正当な値である場合もある。↩
- 異常値 … 入力ミスやシステムの不具合など、明らかに誤りと判断できる値のこと。外れ値とは区別される。↩
- 欠損値 … 本来記録されるべきデータが、何らかの理由で記録されず空欄になっている状態の値のこと。↩