データの確認と理解
分析のアプローチ設計(4-1)が終わり、実際にデータが手元に集まってきたら、次にやるべきことは「そのまま集計・分析を始める」ことではありません。まずデータそのものを疑い、確認する工程が必要です。このページでは、グラフの集計ミス・記載ミスのチェック、データ項目・量・質の検証、目的に即した集計と事実の把握、集計の切り口や比較対象の設定、データの発生トリガーと基本統計量・分布の把握という5つの視点を整理します。
欠損値や外れ値への具体的な対処方法は、次のレッスン(4-3. サンプリングとクレンジング)で扱います。まずは「データを鵜呑みにしない」姿勢そのものを、ここでしっかり身につけましょう。
1. グラフや集計結果を鵜呑みにしない
データ分析の現場では、社内の別部署が作ったグラフや、前任者が作った集計資料をそのまま引き継いで使う場面が数多くあります。しかし、そこに集計ミスや記載ミス※1が紛れ込んでいないかを、まず自分の目でチェックする姿勢が欠かせません。これはDS検定でも必須スキルチェック項目とされている、地味ながら極めて重要な力です。
具体的には、単独のグラフを見たときに「合計値が実際の内訳の合計と一致しているか」「軸の単位や桁は正しいか」「前年同月比のはずが前月比になっていないか」「グラフのタイトルと中身の集計期間が一致しているか」といった点を確認します。特に、Excelなどの手作業でのグラフ作成では、フィルタのかけ忘れや、コピー&ペーストの際の参照範囲のズレによって、見た目には自然でも実態とズレた数値が表示されてしまうことがよくあります。
- 店舗別売上グラフの合計が、実際の全社売上と一致しない(一部店舗が集計から漏れている)
- 「前年同月比」と書かれたグラフなのに、実際には前月比のデータが表示されている
- 単位が「千円」なのに軸ラベルには「円」と書かれており、桁を1000倍読み違えてしまう
- 退職者のデータが除外されないまま「現在の従業員数」として集計されている
単独のグラフに対して、集計ミスや記載ミスなどがないかチェックできることはDS検定の必須項目です。グラフを見たら「合計は合っているか」「単位・期間の表記は本文と一致しているか」を反射的に確認するクセをつけましょう。
会議で「あれ、この合計おかしくないですか?」って気づける人、実はすごく信頼されるんだよね。グラフをそのまま信じない姿勢、地味だけど超大事!
2. データ項目・量・質を検証する
グラフの見た目だけでなく、その元になっているデータ項目やデータの量・質そのものを検証することも欠かせません。データ項目の検証とは、「必要な項目がすべて揃っているか」「項目の定義は分析目的に合っているか」を確認することです。データの量の検証とは、「分析に十分なサンプル数があるか」「特定の期間や属性のデータが極端に少なくないか」を確認することです。そしてデータの質の検証とは、「入力ミスや表記ゆれがないか」「同じ意味のはずのデータが別の形式で記録されていないか」を確認することです。
| 観点 | 確認する内容 | 具体例 |
|---|---|---|
| データ項目 | 必要な項目が揃っているか、定義が目的と合っているか | 「顧客属性」に年齢はあるが居住地がない |
| データの量 | 十分なサンプル数があるか、偏りがないか | 特定の店舗だけ極端にレコード数が少ない |
| データの質 | 表記ゆれ・入力ミス・重複がないか | 「東京都」と「東京」が別表記で混在している |
重要なのは、これらの検証を指示のもと正しく行い、結果を説明できることです。試験でも実務でも、いきなり自己流で判断するのではなく、上司やチームの指示・基準に沿って検証を進め、「このデータはこういう理由で信頼できる(あるいはできない)」と他者に説明できる状態にしておくことが求められます。
データ項目やデータの量・質について、指示のもと正しく検証し、結果を説明できることはDS検定のスキルチェック項目です。「項目」「量」「質」の3つの切り口でチェックし、その結果を言葉で説明できるように準備しておきましょう。
3. 目的に即して集計し、事実を把握する
データの信頼性が確認できたら、いよいよ集計です。ここで思い出したいのが、第1章・4-1で繰り返し学んだ「目的→問い→データ」の順序です。どのような知見を得たいのかという目的に即して集計し、データから事実を把握することが、この段階での中心的なスキルです。
同じデータでも、目的が変われば適切な集計方法もまったく変わります。「全社の売上規模感を知りたい」のであれば合計や平均を見ればよいですが、「特定の施策が効いたかを知りたい」のであれば施策の前後や対象・非対象での比較が必要になります。目的を決めずに手当たり次第に集計すると、第1章で学んだ「とりあえず分析」の失敗を繰り返すことになります。
- 目的「新商品の売れ行きを把握したい」→ 集計:新商品の日別販売数の推移、既存商品との比較
- 目的「離脱している顧客層を把握したい」→ 集計:属性別(年齢・地域・購入回数)の継続率のクロス集計
- 目的「キャンペーンの効果を把握したい」→ 集計:キャンペーン対象者と非対象者の購買額の比較
どのような知見を得たいのか、目的に即して集計し、データから事実を把握できることはDS検定の必須項目です。集計を始める前に「この集計で何を明らかにしたいのか」を一言で言えるかどうかを、必ず自分に問いかけましょう。
4. 集計の切り口と比較対象の設定
目的に即した集計であっても、集計の切り口や比較対象の設定を誤ると、事実を正しく浮き彫りにできません。ある1つの数値だけを眺めていても、それが良いのか悪いのかを判断する基準がなければ意味を持たないからです。
たとえば「今月の売上は500万円でした」という数値だけでは、それが好調なのか不調なのか誰にも判断できません。ここに「先月比」「前年同月比」「目標比」「競合比」といった比較対象※2を組み合わせることで、はじめて数値の意味合いが立ち上がってきます。同様に、「全社合計」だけでなく「店舗別」「商品カテゴリ別」「顧客層別」といった切り口で分解して集計することで、全体では見えなかった偏りや傾向を発見できます。
- 全社売上は前年比100%で「横ばい」に見えたが、店舗別に切り分けると都市部は伸び、郊外は大幅減という真逆の傾向が隠れていた
- 顧客満足度の平均点は横ばいだったが、年代別に見ると若年層だけ大きく低下していた
- キャンペーンの購入率を「対象者全体」で見ると低調だったが、既存顧客に絞ると高い効果が出ていた
データから事実を正しく浮き彫りにするために、集計の切り口や比較対象の設定が重要であることを理解しておくのはDS検定の必須項目です。数値を見たら「何と比べるか(比較対象)」「どう分解するか(切り口)」をセットで考える習慣をつけましょう。
「全体では横ばい」って報告、実は一番あぶないパターン。切り口を変えて分解してみたら、実は明暗がくっきり分かれてた…なんてこと、実務でめちゃくちゃあるよ!
5. データの発生トリガー・基本統計量・分布を把握する
集計の前提として、そもそも「このデータはどのように発生しているのか」を理解しておくことも重要です。発生トリガー※3とは、そのデータが記録される「きっかけ」のことです。POSレジのデータであれば「会計が行われたとき」、Webサイトのアクセスログであれば「ページが閲覧されたとき」がトリガーにあたります。あわせて、そのデータがどのようなタイミング・頻度で発生するか(リアルタイムか、日次バッチか、月末締めかなど)を把握しておくと、データの欠落や遅延の原因を推測しやすくなります。
さらに、普段業務で扱っているデータについて、基本統計量や分布の形状をあらかじめ把握しておくことも実務上たいへん役立ちます。第3章で学んだ平均・中央値・標準偏差などの基本統計量を日頃から確認しておけば、新しいデータを見たときに「いつもと様子が違う」という異常にすぐ気づけるようになります。
| データの種類 | 発生トリガーの例 | タイミング・頻度の例 |
|---|---|---|
| POSレジデータ | 会計(決済)が行われたとき | リアルタイム〜日次で集計 |
| Webアクセスログ | ページの閲覧・クリックが発生したとき | 常時発生、分単位で蓄積 |
| 顧客アンケート | 回答者が回答を送信したとき | キャンペーン期間中など不定期 |
| 月次会計データ | 月末の締め処理が行われたとき | 月1回、決まったタイミング |
普段業務で扱っているデータの発生トリガー・タイミング・頻度などを説明でき、基本統計量や分布の形状を把握していることはDS検定のスキルチェック項目です。「このデータはいつ、何をきっかけに発生するか」を人に説明できるかどうかを、一度確認してみましょう。
普段見てるデータの「平均」や「だいたいの分布」を頭に入れておくと、異常値が出たときに「あれ、いつもと違うぞ」ってすぐ気づけるようになるよ。これ、地味に一番役立つ感覚かも。
まとめ
4-2では、データを集計・分析する前に押さえておくべき「確認と理解」の視点を整理しました。振り返っておきましょう。
- 集計ミス・記載ミスのチェック ― 単独のグラフでも合計・単位・期間の表記を鵜呑みにせず確認する
- データ項目・量・質の検証 ― 指示のもと正しく検証し、その結果を説明できる状態にしておく
- 目的に即した集計 ― どんな知見を得たいのかを明確にしてから集計し、事実を把握する
- 切り口と比較対象の設定 ― 何と比べるか、どう分解するかによって見える事実が変わる
- 発生トリガー・基本統計量・分布の把握 ― 普段のデータの「いつもの姿」を知ることで異常に気づきやすくなる
次のレッスンでは、データの中に潜む欠損値・外れ値・異常値への対処や、標本の取り方にまつわるサンプリングバイアスなど、より実務的なデータ品質の話(4-3. サンプリングとクレンジング)に進みます。