本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
分析項目を増やす場合はマージ、分析量を増やす場合はユニオン
IT用語の”デフォルト“のようによく使われるデータ分析用語として”マージ”と”ユニオン”があります。2つの英語を直訳するとマージ(merge)は「併合する」「合併する」、ユニオン(union)は「結合」「合体」などになり、非常に似た言葉になります。しかし、データ分析用語の”マージ”と”ユニオン”は、同じデータを結合する意味でも追加する場所が違います。これから、”マージ”と”ユニオン”の違いについて説明したいと思います。
マージは列追加(項目追加)
マージは複数のデータを結合して、ベース(基準)となるデータに列(項目)を追加します。ベースとなるデータとは、日々の売上データやアクセス履歴、口座の入出金履歴などの分析対象となるデータの事です。このベースとなるデータに対して、マスタデータと呼ばれる商品情報や顧客情報などのデータを紐づけます。この時、これらマスタデータの情報は、ベースとなるデータにデータ項目として追加されます。
この様にベースとなるデータに様々なデータ項目を付けることで、ベースとなるデータの情報以外のデータ項目で分析が可能になります。
また、1回の会計処理で1件の基礎情報(会計日時、支払金額、お釣りなど)と商品数分の明細情報(商品名、単価、個数など)の2種類がデータ出力される場合、この2種類のデータをマージすることで、別々で分析する必要がなく、基礎情報と明細情報のデータ項目を掛け合わせて分析が行えるようになります。
ユニオンは行追加(データ追加)
ユニオンは複数のデータを積み重ねます。積み重ねる時、同じデータ項目は1つの項目(列)で表す必要がありますが、データ項目に登録されている商品名や会社名、コード体系などがデータ毎に異なる場合があります。これらの登録されているデータの”ゆれ”を補正する処理が”名寄せ”と呼ばれる処理になります。
複数のデータをユニオンした時の効果として、例えば都道府県ごとの分かれたデータを1つにすることで全国単位での分析が行える、または、月ごとに分かれたデータを1つにすることで年間の売上推移の分析が行えるなど、データを1つに纏めることで全体としてデータのバリエーションの幅を広げることができます。
データ分析は分析する情報を1つに纏めておくことが重要
マージもユニオンもデータを結合するという意味では同じです。これらの処理を効果的に行う事で、分析対象のデータを太らせ、様々な角度から分析できるようになります。重要なのは”何を分析するか?”を考えることです。ただ闇雲にデータ結合を行ってしまうと、分析対象のデータが壊れてしまうため、注意が必要です。