本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
トランザクションデータからマスタデータをデータ正規化によって作成する
前回は、トランザクションデータとマスタデータの基礎知識および、データの運用におけるマスタデータのメリット(保存領域の削減や更新の効率化など)について解説しました。今回は、正規化によってマスタデータを作成するメリットについて解説したいと思います。
データ正規化とは
正規化について、Wikipediaの内容を引用します。
正規化(せいきか、英: normalization)とは、データ等々を一定のルール(規則)に基づいて変形し、利用しやすくすること。別の言い方をするならば、正規形でないものを正規形(比較・演算などの操作のために望ましい性質を持った一定の形)に変形することをいう。多くの場合、規格化と訳しても同義である。非常に多くの分野で使われている言葉で、分野によって意味も大きく異なるため、頻度が高い分野についてそれぞれ個別に説明する。
出所:Wikipedia
つまり、データ正規化は、データ処理技術を使用して様々な形の業務データ(非正規形)を利用しやすい形(正規形)に変形する処理です。データ分析において、様々なデータを紐付けるためにデータの正規化処理は必須です。データ正規化の精度によってデータ分析の精度やスピードが変わります。
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
トランザクションデータからマスタデータを作成するメリット
では、データ分析において、新たにマスタデータを切り出した時のメリットとはなんでしょうか。
マスタデータの視点から分析
売上トランザクションを例にしたとき、データ分析は、時間帯や商品ごとの売上集計が中心になり、どのような層の顧客が購入するかは分かりにくいです。そのため、売上トランザクションから顧客情報を抜き出し、顧客マスタを作成します。これによって、顧客マスタの年齢や性別ごとの売上集計が容易に行えるようになります。
最新の情報が一目で分かる
オンラインゲームのプレイ履歴を例にしたとき、最新のステータス情報を取得する場合は、大量のプレイ履歴から探し出す必要があります。そのため、プレイ履歴からデータ分析時点の利用者ごとの最新のデータを抜き出し、利用者ステータスマスタを作成します。これによって、大量のプレイ履歴を探すことなく、最新の利用者のプレイ状況を取得できます。また、最終プレイ日時が分かるため、一定期間、利用していない利用者を退会扱いにして、集計が行えます。
データ正規化によってマスタデータを作成する
トランザクションデータからデータ正規化によってマスタデータを作成する場合、トランザクションデータ中の従属関係のある項目を探し出し、切り出す作業を行います。データの従属関係とは、キーとなる情報が決まると、その他の情報が決まるデータを表します。
例えば、下記のような売上トランザクションがあった場合、顧客番号が決まれば、年齢、性別が決まる従属関係であるため、この3項目のデータを切り出し、顧客マスタデータとします。この時、顧客番号が重複しないように顧客マスタデータを作成する必要があります。
尚、このようなマスタデータの切り出し処理を、graffeでは、データクレンジング処理において行っています。
データ分析用語:索引