第4章 4-1 / データの理解・検証・準備

分析のアプローチ設計

このページで学ぶこと

第4章「データの理解・検証・準備」では、実際に手を動かしてデータと向き合うための実務的な考え方を扱います。本ページ(4-1)では、その入り口にあたる分析のアプローチ設計を取り上げます。仮説や課題に対して必要なデータを特定する力と、スコープ・検討範囲を明確にすることで分析プロセス全体を見通す力の2つが柱です。

第1章で学んだ「目的→問い→データ」という順序を、実際の分析設計の場面でどう具体化するかを、ここで一段深く掘り下げていきます。

1. なぜ「アプローチ設計」が必要なのか

第1章のビジネスマインドで学んだとおり、データ分析は「目的→問い→データ」の順序で進めるべきものでした。しかし、目的と問いが定まったからといって、すぐにパソコンを開いてデータをいじり始めるのは早計です。その前に、分析のアプローチ設計※1という、いわば「分析の設計図」を描く工程が必要になります。

アプローチ設計とは、「この仮説を検証するために、どんなデータを、どこまでの範囲で、どんな手法を使って分析するか」を事前に整理する作業です。この設計を飛ばしていきなり分析に着手すると、データを集めてから「これでは仮説を検証できない」と気づいたり、分析の途中で「そもそも何を明らかにしたかったんだっけ」と迷子になったりする失敗が非常に多く起こります。

さえちゃん
さえ

料理する前に「何を作るか」「材料は何が必要か」を決めておかないと、冷蔵庫を開けてから慌てちゃうよね。データ分析も同じで、手を動かす前の設計がすごく大事なんだよ!

2. 仮説や課題に対して必要なデータを特定する

アプローチ設計の中心にあるのが、仮説や課題に対して必要なデータを特定できるという力です。これはDS検定のスキルチェックリストでも必須項目に位置づけられており、実務でも最初につまずきやすいポイントです。

第1章で「良い仮説」の型として「〇〇(条件・原因)だから、△△(結果)なのではないか」という形を学びました。この型に当てはめて仮説を言語化すると、実は自然とどんなデータが必要かが見えてきます。仮説の「条件・原因」の部分と「結果」の部分、それぞれを裏づけるデータが何であるかを洗い出せばよいのです。

EXAMPLE ― 仮説から必要データを逆算する
  • 仮説「価格改定をした先月から、単価5,000円以上の商品カテゴリだけ購入率が下がっているのではないか」
  • → 必要なデータ①:商品カテゴリ別の価格改定履歴(いつ、どの商品を、いくらに変更したか)
  • → 必要なデータ②:カテゴリ別・月別の購入率(購入者数÷来訪者数など)の推移
  • → 必要なデータ③:比較のための「価格改定していないカテゴリ」の同期間の購入率

ここで見落としがちなのが、③のような比較のためのデータです。「価格改定後に購入率が下がった」という事実だけでは、それが価格改定の影響なのか、季節要因や景気全体の影響なのかを区別できません。仮説を検証するためには、原因となった変数以外の条件をなるべくそろえた比較対象のデータも合わせて特定する必要があります。この視点は、4-2で扱う「比較対象の設定」ともつながる重要な考え方です。

もうひとつ気をつけたいのが、「理想的には欲しいが、現実には手に入らないデータ」がある場合の対応です。たとえば「顧客の本当の満足度」を直接測るデータは存在しないことが多く、代わりに「アンケートの評価点」や「リピート購入率」といった代理指標を使うことになります。この場合、代理指標が本当に知りたいことをどれだけ正しく反映しているかを意識しておくことも、必要なデータを特定するプロセスの一部です。

EXAMPLE ― 顧客アンケートの場合
  • 仮説「問い合わせ対応の待ち時間が5分を超えた顧客ほど、満足度アンケートで低評価をつける割合が高いのではないか」
  • → 必要なデータ①:コールセンターの応対ログ(通話開始・応答開始時刻から待ち時間を算出)
  • → 必要なデータ②:同じ顧客が回答した満足度アンケートの点数
  • → 必要なデータ③:待ち時間が短かった顧客群の満足度(比較対象)
POINT

仮説や課題に対して必要なデータを特定できることはDS検定の必須スキルチェック項目です。仮説を「〇〇だから△△」の型に分解し、「〇〇を裏づけるデータ」「△△を裏づけるデータ」「比較対象となるデータ」の3点をセットで洗い出す習慣をつけましょう。

さえちゃん
さえ

「必要なデータを特定する」っていうと難しく聞こえるけど、要は仮説の文章を分解して「この部分を確かめるにはどのデータを見ればいい?」って一つずつ当てはめていくだけだよ。

3. スコープと検討範囲を明確にする

必要なデータが見えてきたら、次に大切なのがスコープ※2、つまり分析の検討範囲を明確に設定することです。スコープが曖昧なまま分析を進めると、際限なくデータを集め続けてしまったり、逆に本来見るべきデータを見落としてしまったりします。

スコープを明確にするとは、具体的には次のような問いに答えることです。「どの期間のデータを見るか(直近3ヶ月か、過去3年か)」「どの対象を分析するか(全店舗か、特定エリアの店舗だけか)」「どこまで細かく見るか(会社全体か、部門別か、個人別か)」。これらを最初に決めておくことで、分析の途中で迷わなくなります。

スコープの観点問いの例決めないとどうなるか
期間直近3ヶ月か、季節性を見るため1年分か短すぎて傾向が見えない、または長すぎて的外れなデータまで含む
対象全社か、特定の事業部・店舗・顧客層か関係のない対象のデータに埋もれて結論がぼやける
粒度全体集計か、月別・地域別・個人別か粗すぎて実態が見えない、または細かすぎて全体像を見失う

スコープ、検討範囲・内容が明確に設定されていれば、そこから先の分析プロセス全体、つまりどんなデータを集め、どんな分析手法を使い、どんな形で可視化するかまでもが自然に理解できるようになります。逆に言えば、分析の途中で「次に何をすればよいかわからない」と感じたときは、多くの場合、最初のスコープ設定が甘かったことが原因です。

EXAMPLE ― スコープを決めると分析プロセスが見える
  • スコープ「直近6ヶ月・首都圏の10店舗・週次の売上データ」と決める
  • → データ:各店舗のPOSレジデータ、週次の来店客数、天候データ
  • → 分析手法:週次推移の折れ線グラフ、店舗間の比較(クロス集計)、天候との相関確認
  • → 可視化:店舗別の週次売上推移グラフ、天候別の売上比較表
POINT

スコープ、検討範囲・内容が明確に設定されていれば、必要な分析プロセス(データ、分析手法、可視化の方法など)が理解できることはDS検定のスキルチェック項目です。「期間」「対象」「粒度」の3つを決めることが、スコープ設定の具体的な出発点になります。

さえちゃん
さえ

「あれ、この分析って結局どこまでやればいいんだっけ?」って迷子になったことがあるなら、それはスコープ決めをすっ飛ばしていたサインかも。最初の地図決めが本当に大事!

4. 分析設計の全体像 ― 目的からアウトプットまで

ここまでの内容を1つの流れとして整理すると、分析のアプローチ設計は次のようなステップで進みます。まず①目的・ゴールを確認し、②仮説や課題を言語化し、③その仮説に必要なデータを特定し、④スコープ(期間・対象・粒度)を決め、⑤具体的な分析手法と可視化の方法を選ぶ、という順序です。

このステップを事前に紙やドキュメントに書き出しておくことを、実務では分析設計書※3や「分析企画書」と呼ぶこともあります。細かい書式にこだわる必要はありませんが、少なくとも「何のために(目的・KGI/KPI)」「何のデータを使って」「どこまでの範囲を(スコープ)」「どう見せるか(可視化)」の4点を、分析に着手する前に言葉にしておくことが、手戻りを防ぐ最大のコツです。

EXAMPLE ― 分析設計書の簡易フォーマット
  • 目的:新規オープンした競合店舗の影響で客数が減っていないかを確認したい
  • 仮説:競合店舗から半径500m以内の店舗ほど、来店客数の減少幅が大きいのではないか
  • 必要なデータ:店舗別の週次来店客数、各店舗と競合店舗との距離、競合の出店時期
  • スコープ:競合出店の前後3ヶ月・該当エリアの全店舗・週次
  • 分析手法・可視化:距離帯別に来店客数の増減率を比較する棒グラフ

このように、目的からアウトプットまでを1枚にまとめておくと、途中で関係者に説明を求められたときにもすぐに答えられますし、分析の担当者が変わっても同じ設計思想を引き継げます。属人化※4を防ぐという意味でも、分析設計書を残しておくことには大きな価値があります。

POINT

分析設計は一度決めたら終わりではありません。データを見ていく過程で「思っていたより対象が偏っていた」「もっと長い期間を見る必要がある」といった気づきが出てくることもあります。そのときはスコープや必要データを柔軟に見直す姿勢も大切です。

まとめ

4-1では、分析に着手する前の「設計」の重要性について整理しました。振り返っておきましょう。

  1. アプローチ設計 ― 分析に着手する前に、必要なデータ・範囲・手法を整理しておく
  2. 必要なデータの特定 ― 仮説を「〇〇だから△△」の型に分解し、原因・結果・比較対象のデータを洗い出す
  3. スコープの明確化 ― 期間・対象・粒度を決めることで、分析プロセス全体(データ・手法・可視化)が見通せるようになる

次のレッスンでは、実際に手元に集めたデータをどう確認し、理解していくか(4-2. データの確認と理解)を扱います。欠損値や外れ値のチェックなど、より実践的な内容に入っていきます。

脚注 ─ 用語解説
  1. 分析のアプローチ設計 … 分析に着手する前に、仮説の検証に必要なデータ、分析の範囲、使用する手法などをあらかじめ整理しておく計画づくりのこと。
  2. スコープ … 分析や検討の対象とする範囲のこと。期間・対象・粒度(集計の細かさ)などで具体的に定義される。
  3. 分析設計書 … 分析の目的・仮説・必要データ・スコープ・分析手法などを1枚にまとめたドキュメントのこと。分析企画書とも呼ばれる。
  4. 属人化 … 業務のやり方や判断基準が特定の担当者にしかわからない状態になり、他の人に引き継げなくなること。