Udemyで講座を受講しよう!
PeachRoom

データの正規化方法

Yujiro Sakaki

縦長のキャプチャで恐縮です。皆さんは以下のキャプチャのようなヒートマップを見たことがありますか?

カラースケールをしたダミーデータです

ヒートマップは、絶対的な数値データで眺めるよりも、色の濃淡を利用することで、データの集中度合いを視覚的に確認することができます。

セルを利用して、データを「面」で見ることができるため、この手法は大変便利です。これは、データを正規化して色付けがされています。

Check Point

この記事で学習できること

  • 正規化
  • ヒートマップ

正規化とは、データを0~1の範囲に置き換えることです。ここではデータの正規化方法を学習していきましょう。

変動係数にデータの標準化、そして正規化。データを相対的にみる手法は、こんなにもあるんだね!

第13講座

正規化とは、データセット内の全ての値を0~1の間に収める方法です。具体的には、各データから最小値を引き算し、それを最大値と最小値の差、つまりレンジで割ります。

正規化された値 = ( 実データ - 最小値 )÷ レンジ

偏差を標準偏差で割り算して求める標準化データの「z値」は、きちんと専用の名前がついているのですが、この正規化された値には特定の用語はありません。

正規化された値、またはスケーリングされた値と呼びます。最初にご紹介したダミーデータのキャプチャ画像で、正規化された状態を見てみましょう。

データを正規化すると、最小値が「0」になり、最大値が「1」となります。この値に基づいて、色の度合いがグラデーションで定められているのがわかりますよね。

Excelのようなアプリケーションソフトでは、正規化の計算式をしないでも「条件付き書式」の「カラースケール」機能を使えば、自動でグラデーションカラーを塗ってくれます。

[ホーム]タブ→条件付き書式

ですので、このような計算式を作成する機会も多くはないので、裏ではこのような計算がされて色が塗られているのだ、ということを覚えておいてください。

では、どういうときに正規化を使うのかというと、機械学習ではよく用いられます。

計測データを0~1の間に取得したデータを変換して学習させれば、スピーディーな学習をさせることができます。この前処理があることで、全体の計算量を節約できますからね。

また、異なる単位のデータを統合する際にも正規化が役に立ちます。

センチメートルとインチでは長さの単位が異なりますが、正規化することで長さの度合いを均一に見ることが可能です。

このように、正規化の出番はなかなかありませんが、データの前処理ではとても重要な調理方法の一つでもあるので、ぜひ覚えておきましょう。

ブレ幅をみるとき、そのままの数字で見るより、0~1の範囲で置き換えて見たほうが楽だよね。

Advertisement
ABOUT ME
榊 裕次郎
榊 裕次郎
Excel講師
1981年10月生まれのてんびん座、東京都出身。趣味は、旅行と料理とワイン。2024年は、佐賀県に行って「呼子のイカ」を思いっきり食べたいです。

引き続き、青森・秋田・岩手でのお仕事ご依頼、お待ちしております!
記事URLをコピーしました