第9章 9-6 / ビジネス力と価値創造

データ整備と開発・評価

このページで学ぶこと

優れた事業構想も、それを支えるデータが整備されていなければ実現できません。このページでは、データ資産の把握と整備・基盤構築、ノイズや欠損・バイアスに配慮したデータ品質の改善、データの調達・共有・利用契約を含むデータエコシステムの設計、PoC(概念実証)の設計・実装、MVP(実用最小限の製品)による検証、そして業務を構造化してAIによる代替・補完へつなげる力という6つの観点を整理します。

いずれも、データ分析プロジェクトが「企画」から「実際に動くもの」へと進んでいく段階で必ず直面する工程です。データの整備から始まり、小さく試し、業務そのものを作り替えていくという一連の流れとして捉えていきましょう。

1. データ資産を把握し、整備・基盤構築を行う

データ分析プロジェクトの多くは、実は分析の前段階、つまりデータを整備すること自体に最も時間がかかります。業界特性や契約条件を踏まえたデータ整備・基盤構築を行う力(スキルチェック項目No.23)は、データの流通経路・保管・アクセス設計を一貫してデザインし、品質と再利用性を両立させる力です。★レベルでは、既存データ資産を把握し活用範囲を整理・説明できることが求められます。

たとえば、あるデータ分析プロジェクトが立ち上がったとき、最初にやるべきことは分析ツールを選ぶことではなく、「社内にどんなデータが、どこに、どんな形式で存在しているか」を棚卸しすることです。販売管理システムの受注データ、CRMの顧客データ、Webサイトのアクセスログなど、部署ごとにバラバラに管理されているデータを洗い出し、それぞれ誰がアクセスできるのか、どんな契約条件(取引先との守秘義務など)が付いているのかを整理します。この棚卸しができていないと、後になって「実はこのデータは分析に使ってはいけない契約だった」という事態にもなりかねません。

EXAMPLE ― データ資産の棚卸し

販売・在庫・顧客対応など、部署ごとに分散しているデータを一覧表にまとめ、保管場所とアクセス権限を整理する
「このデータは分析に使ってよいか」を、取引先との契約書や利用規約を確認しながらチェックする
複数の部署がバラバラなフォーマットで管理していた顧客データを、共通の基盤に統合する計画を立てる
インターン先で分析を任される前に、社内にどんな売上データ・顧客データがどの部署にあるのか、まず自分で一覧にして把握する

POINT

データ分析プロジェクトの最初の一歩は「モデルを作ること」ではなく「今あるデータを把握し、使ってよい範囲を整理すること」です。ここを飛ばすと、後工程で大きな手戻りが発生します。

さえ

データ分析って聞くと、いきなりモデルを作るイメージがあるかもしれないけど、実際のプロジェクトの9割はデータ整備に時間がかかるんだよね。地味だけど、ここが一番大事!

2. ノイズ・欠損・バイアスに向き合い、データ品質を高める

データが揃っていても、それがそのままAI活用に使える品質とは限りません。ノイズ^※1・欠損^※2・バイアス^※3を考慮しながら、AI活用に適したデータ構造・特徴量・メタデータを設計し、データ品質・倫理性を確保する力(スキルチェック項目No.24)が必要です。★レベルでは、データの品質課題を特定し、AI活用目的に沿った改善提案ができることが求められます。

たとえば、顧客の購買データを使って離反予測モデルを作るプロジェクトで、データを確認したところ「入力ミスと思われる異常値が混ざっている(ノイズ)」「一部の顧客で年齢や性別が未入力のまま欠けている(欠損)」「特定の店舗のデータだけ極端に多く、全体を代表していない(バイアス)」といった問題が見つかったとします。これらを放置したままモデルを作ると、精度が落ちるだけでなく、特定の顧客層に対して不公平な予測をしてしまう危険もあります。データ品質の課題を特定し、どう改善すべきかを提案できることが、この力の中核です。

品質課題	具体例	改善の方向性
ノイズ	入力ミスによる異常値、重複データ	異常値検知・除去のルールを設ける
欠損	年齢・性別など一部項目の未入力	補完方法を検討する、または欠損の理由を調べる
バイアス	特定店舗・時期のデータに偏っている	データの偏りを可視化し、収集方法を見直す

EXAMPLE ― 権利処理と透明性

顧客データを分析に使う際、個人情報の利用目的が同意の範囲内に収まっているかを確認する
データがどのように収集・加工されたかをメタデータ^※5(データについてのデータ)として記録し、後から追跡できるようにする
データ品質の改善提案を行う際、「なぜこの補完方法を選んだか」を説明できるようにしておく

POINT

データ品質の確認は、「量」より先に「質」を見ることが大切です。データが大量にあっても、ノイズ・欠損・バイアスが多ければ、そこから導かれる結論は信頼できません。

3. データエコシステムを設計する

一社だけですべてのデータを抱え込む時代は終わりつつあります。データの調達・共有・利用契約を俯瞰し、持続可能なデータ流通構造を設計する力(スキルチェック項目No.25・必須)は、パートナーや行政との連携を含めたデータエコシステム^※4を構築する力です。★レベルでは、契約内のデータの取り扱いにおける基本的な条件を理解・遵守できることが求められます。

たとえば、業界団体を通じて他社と匿名化されたデータを共有し合う枠組みに参加するプロジェクトを考えてみましょう。この場合、「共有されたデータをどの範囲まで自社の分析に使ってよいか」「第三者に再提供してよいか」「契約が終了したらデータを削除する義務があるか」といった契約条件を正確に理解し、遵守することが不可欠です。これを軽視すると、契約違反や信頼関係の毀損につながりかねません。

EXAMPLE ― データ流通の契約条件を守る

他社から提供された販売データについて、契約書に定められた利用目的・利用期間を確認してから分析に着手する
行政が公開するオープンデータを使う際、利用規約(出典表示の義務など)を確認して遵守する
データ提供元との契約が変更された場合、それに応じて自社の分析範囲や保管方法を見直す

さえ

「このデータ使ってもいいのかな?」って迷ったら、まず契約書とか利用規約を確認するクセをつけよう。良かれと思って使ったデータが実は契約違反だった、なんて失敗はほんとに避けたいところ。

4. PoC(概念実証)を自ら設計・実装する

9-4では事業視点からPoC・MVPの計画を扱いましたが、ここではより実装に近い視点から見ていきます。実現可能性や事業インパクトを検証するためのPoCを設計・実装する力(スキルチェック項目No.26・必須)は、小規模実験を通じてリスクと価値を見極め、学習と改善につなげる力です。★レベルでは、検証目的を定義し、小規模なPoCを自ら実装・検証できることが求められます。

たとえば、コールセンターの応対内容から解約リスクの高い顧客を検知するというアイデアがあったとします。いきなり全社展開するのではなく、まず「過去3か月分の応対ログを使い、簡易的なキーワード分析で解約に至った顧客とそうでない顧客の違いが見えるか」という検証目的を定義し、小規模なプログラムを自分で書いて試してみます。この段階では精度の高いモデルである必要はなく、「この方向性に見込みがあるかどうか」を素早く確認することが目的です。

EXAMPLE ― 小規模PoCの実装ステップ

「解約前の顧客は、特定のキーワードを含む問い合わせが増える傾向があるのではないか」という検証目的を明文化する
手元にある表計算ソフトや簡単なプログラムを使い、過去データで実際に傾向が見られるかを検証する
検証結果を踏まえて、「本格的なモデル開発に進めるか」「別の切り口を試すべきか」を判断する

POINT

PoCの実装で大切なのは、完成度の高いプログラムを書くことではなく、「検証目的に対して答えが出せる最小限の実装」にとどめることです。作り込みすぎると、検証のスピードという本来のメリットが失われます。

5. MVPで価値と実現性を検証する

PoCで技術的な見込みが確認できたら、次はMVPの段階に進みます。最小限の機能・モデル・UXを構築し、MVPで価値と実現性を検証する力(スキルチェック項目No.27)は、実利用データを通じて事業インパクトを定量化するところまでを含みます。★レベルでは、基本機能を持つ試作を実装できることが求められます。

先ほどの解約リスク検知の例で言えば、PoCで見込みが確認できた後、実際にコールセンターの担当者が使える最小限の画面(応対中に解約リスクスコアが表示される機能)を試作し、実際の業務の中で使ってもらいます。これがMVPです。PoCとの違いは、「実際にユーザーが日常業務の中で触れる」という点にあります。MVPを通じて、「本当に担当者はこの情報を役立てて行動を変えるのか」「解約率は実際に下がるのか」といった、事業インパクトを定量的に確認できます。

EXAMPLE ― MVPで実利用データを確認する

解約リスクスコアを表示する最小限の画面を1チームだけに配布し、実際の応対で使ってもらう
MVP導入前後で、対象チームの解約率や顧客満足度がどう変化したかを実データで比較する
担当者からのフィードバックをもとに、次にどの機能を追加すべきかの優先順位を決める

6. 業務を構造化し、AIで代替・補完する

データ整備・PoC・MVPの検証と並行して欠かせないのが、業務そのものを構造化する視点です。業務知識や技能を分析・構造化し、AIで代替・補完可能な業務プロセスへ変換する力(スキルチェック項目No.28)は、人・組織が持つ暗黙の知識を形式知化^※6し、モデル化する力です。★レベルでは、業務手順を整理し構造を説明できることが求められます。

たとえば、ベテラン社員が長年の経験で行っている「クレーム対応の優先順位づけ」を考えてみましょう。この判断は、本人にとっては「なんとなくの勘」に見えても、実際には「顧客の契約年数」「過去のクレーム回数」「問い合わせ内容の緊急度」といった複数の要素を無意識に組み合わせて行われていることがほとんどです。この暗黙の判断プロセスを一つずつ言葉と手順に落とし込み、業務フローとして構造化することで、はじめてAIによる代替・補完が可能になります。

EXAMPLE ― 業務の構造化からAI活用へ

ベテラン担当者へのヒアリングを通じて、判断に使っている要素と優先順位の付け方を書き出す
書き出した業務フローを図式化し、「どこを人が判断し、どこをAIが代替・補完できそうか」を整理する
構造化した業務手順をもとに、優先順位づけを支援するモデルの学習データ設計につなげる

POINT

「ベテランの勘」をAIに置き換えようとする前に、まずその勘を言葉と手順に分解して説明できる形にすることが先決です。構造化できていない業務は、AI化のしようがありません。

さえ

「ベテランの勘をAIに」ってよく聞くけど、実はその前段階の「勘を言葉にする」作業がすごく大変なんだよね。ここをサボると、結局使えないAIができあがっちゃうから気をつけて!

まとめ

ここまで、DS検定の出題範囲である「価値創造力／データ整備と開発・評価」の考え方を、データ分析プロジェクトの流れに沿って見てきました。最後に振り返っておきましょう。

データ資産の把握と整備 ― 既存データ資産を棚卸しし、契約条件を踏まえて活用範囲を整理・説明する
データ品質の改善 ― ノイズ・欠損・バイアスを特定し、AI活用目的に沿った改善提案を行う
データエコシステムの設計 ― データ流通に関わる契約条件を理解し、遵守する
PoCの設計・実装 ― 検証目的を定義し、小規模なPoCを自ら実装・検証する
MVPによる検証 ― 基本機能を持つ試作を実装し、実利用データで事業インパクトを確認する
業務の構造化 ― 業務手順や暗黙知を整理・言語化し、AIによる代替・補完につなげる

次のレッスンでは、こうして開発・評価されたAIシステムを実際の現場で運用し、継続的に改善していくための考え方を扱います。

脚注 ─ 用語解説

ノイズ … データの中に混ざった、分析目的にとって不要・誤りである値や情報のこと。入力ミスや測定誤差などが原因となる。↩
欠損 … 本来存在すべきデータの値が記録されていない状態のこと。未入力や取得漏れなどが原因となる。↩
バイアス … データや分析結果が特定の方向に偏っている状態のこと。収集方法や母集団の偏りによって生じ、不公平な判断につながることがある。↩
データエコシステム … 複数の企業・組織・行政などが協力し、データを調達・共有・活用し合う持続的な仕組みのこと。↩
メタデータ … データそのものではなく、そのデータの出所・作成日時・作成方法などを記述した「データについてのデータ」のこと。↩
形式知化 … 個人の経験や勘といった言葉にしにくい知識(暗黙知)を、誰もが理解できる言葉や手順に落とし込むこと。↩