高度な可視化表現
前のレッスン(5-3)では、可視化を伝える重要性、データインク比、軸表現の基礎、そして比較・構成・分布・変化という目的別の基本チャートの選び方を扱いました。このページ(5-4)では、その続きとして強調表現がもたらす効果と不適切な強調表現、アニメーションによる変化の可視化、そして平行座標・散布図行列・テーブルレンズ・ヒートマップなど多変量データを扱う高度な可視化手法を扱います。
基本チャートを土台に、より説得力があり、より多くの情報を1枚に詰め込める表現技法を身につけていきましょう。
1. 強調表現の効果 ― 位置・サイズは色より強い
グラフの中で「ここを見てほしい」というポイントを目立たせる技術を強調表現と呼びます。強調表現には、色を変える、太字にする、サイズを変える、位置をずらすなど、さまざまな手段がありますが、DS検定で重要視されるのは強調表現がもたらす効果と、不適切な強調表現を正しく理解することです。
とくに押さえておきたいのが、計量データ※1(量的なデータ)に対しては、位置やサイズによる表現のほうが、色による表現よりも人間にとって知覚的に正確に伝わりやすいという事実です。人間の目は、2本の棒の「高さの違い」や、2つの点の「位置の違い」を、かなり正確に比較できます。一方で、色の濃淡や色相の違いから「どちらが何倍大きいか」を正確に読み取ることは、人間の知覚特性上、非常に苦手とされています。
不適切な強調表現の典型例は、量的な違いを色だけで表現してしまうことです。たとえば売上規模の違いを、色の濃さだけで塗り分けた地図(コロプレス図)は、パッと見の印象は伝わっても、正確な数値の差を読み取ることはできません。数値の正確な比較が目的であれば、色は補助的に使い、位置やサイズ(棒の長さ、点の位置など)を主役にするのが適切な強調表現です。逆に、大まかな傾向やカテゴリの違いを直感的に伝えたいだけなら、色分けは効果的な手段になります。
- 都道府県別の売上規模を比較したい→色の濃淡だけの地図より、棒グラフや数値ラベル付きのグラフの方が正確に伝わる
- 異常値だけを目立たせたい→他の点をグレーにし、異常値だけ赤で強調するのは効果的な強調表現
- 複数カテゴリの大まかな違いを一目で見せたい→色分けは直感的な区別に効果的
計量データ(量の大小)を正確に伝えたいときは、位置やサイズによる表現を優先し、色は区別や補助のために使いましょう。色の濃淡だけで量の違いを伝えようとするのは、不適切な強調表現の典型例としてDS検定でも問われます。
色って「なんとなくオシャレ」に見えるから多用しがちだけど、正確な量の比較には向いてないんだよね。「量を見せたいなら位置・サイズ」「区別を見せたいなら色」って使い分けを覚えておこう。
2. アニメーションで変化を可視化する
1枚の静止画では表現しきれない「時間の経過にともなう変化」を、端的に伝える手段がアニメーションによる可視化です。代表的な例として、人口動態のヒストグラム※6が経年で変化していく様子をアニメーションで表現する手法があります。人口ピラミッドが、時代を追うごとに「若年層の多い富士山型」から「高齢層の多いつぼ型」へと形を変えていく様子を、コマ送りのように動かして見せることで、静止画の比較よりも直感的に変化のダイナミズムを伝えられます。
ビジネスの現場でも、月次の売上構成比が積み上げ棒グラフの形でじわじわ変化していく様子や、地図上でヒートマップの色が時間とともに広がっていく様子をアニメーション化することで、担当者以外の人にも「変化そのもの」を直感的に理解してもらいやすくなります。ただし、アニメーションは見る側のペースで止めて確認することが難しいという弱点もあるため、重要な数値は静止画やキャプションでも補足しておくのが望ましい使い方です。
- 都道府県別の人口増減を、地図の色が年ごとに変わっていくアニメーションで見せる
- ある商品カテゴリの売上シェアが、四半期ごとに積み上げ棒グラフの中で移り変わる様子を動画にする
- 顧客の年代分布のヒストグラムが、キャンペーン前後でどう形を変えたかをアニメーションで比較する
アニメーションは「変化そのもの」を端的に伝えるための手段です。人口動態のヒストグラムの経年変化のように、形の移り変わりに意味があるデータほど、アニメーション表現の効果が大きくなります。
3. 多変量データを比較する ― 1〜3次元を超えた可視化手法
これまで見てきたのは、主に1〜3次元(1〜3個の変数)を扱うチャートでした。しかし実務データでは、4つ以上の変数を同時に比較したい場面が数多くあります。ここで使われるのが、1〜3次元の図表を拡張した多変量の比較を可能にする、より高度な可視化手法です。代表的な4つの手法を押さえておきましょう。
| 手法 | 仕組み | 向いている用途 |
|---|---|---|
| 平行座標※2 | 変数ごとに縦軸を並べ、1つのデータを折れ線で結んで表現する | 多数の変数を持つ個体どうしのパターン比較 |
| 散布図行列※3 | すべての変数の組み合わせについて、散布図を格子状に並べる | 変数どうしの相関関係を総当たりで確認 |
| テーブルレンズ※4 | 表の各セルを、数値の大きさに応じたミニ棒グラフに置き換えて表示する | 多数の行・列を持つ表全体の傾向を一覧で把握 |
| ヒートマップ※5 | 行×列のマス目を、数値の大きさに応じた色の濃淡で塗り分ける | 2つのカテゴリ変数を軸にした量の大小の全体像把握 |
- 顧客セグメントごとの「年齢・利用頻度・購入額・満足度」を平行座標で比較し、似た傾向のセグメントを見つける
- 商品の「価格・在庫・レビュー数・売上」など複数指標の相関を散布図行列で総当たりチェックする
- 数十商品×数十店舗の売上表を、テーブルレンズでミニ棒グラフ化して好調・不調の傾向を一覧する
- 曜日×時間帯のアクセス数をヒートマップにして、混雑する曜日・時間の組み合わせを一目で把握する
4変数以上を同時に比較したいときは、平行座標・散布図行列・テーブルレンズ・ヒートマップといった、1〜3次元の基本チャートを拡張した手法を検討しましょう。「何を比較したいか」によって適した手法が異なる点は、基本チャートの使い分けと同じ発想です。
平行座標・散布図行列・テーブルレンズ・ヒートマップの4つは、名前だけでもしっかり覚えておくと安心だよ。「多変量」って言葉とセットで試験に出やすいポイントなんだ。
まとめ
このページでは、基本チャートを土台にした、より高度な表現技法を見てきました。最後に振り返っておきましょう。
- 強調表現の効果 ― 計量データには色よりも位置・サイズによる表現の方が効果的で、色だけに頼る強調は不適切になりやすい
- アニメーションによる可視化 ― 人口動態のヒストグラムの経年変化のように、形の移り変わりをアニメーションで端的に見せる
- 多変量の可視化 ― 平行座標・散布図行列・テーブルレンズ・ヒートマップなど、1〜3次元を拡張した手法で多変量を比較する
次のレッスンでは、可視化そのものの作り方から一歩進んで、できあがったグラフから「何を読み取るか」という視点を扱います。外れ値や傾向性の見つけ方を学び、第5章を締めくくりましょう。
- 計量データ … 数量として測定された量的なデータのこと。長さ・重さ・金額など、大小の比較や演算に意味を持つデータを指す。↩
- 平行座標 … 複数の変数それぞれを縦軸として並べ、1つのデータ(個体)をそれらの軸を結ぶ折れ線で表現する可視化手法。↩
- 散布図行列 … 複数の変数について、すべての2変数の組み合わせの散布図を格子状に並べて一覧できるようにした図。↩
- テーブルレンズ … 表の各セルの数値を、その大きさに応じたミニ棒グラフなどに置き換えて表示し、大きな表全体の傾向を視覚的に把握しやすくする手法。↩
- ヒートマップ … 行と列で構成されるマス目を、数値の大きさに応じた色の濃淡で塗り分けて表現する図。2つのカテゴリ変数を軸にした量の分布を俯瞰しやすい。↩
- 人口動態のヒストグラム(人口ピラミッド) … 年齢層ごとの人口を、男女別に左右の棒で積み上げて表現したグラフ。年齢構成の分布を経年で比較するとき、時代ごとの形の変化(富士山型からつぼ型へ、など)がよく用いられる例。↩