本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
情報を結合してデータ分析を行う場合、ベースとなる情報をどちらにするかで分析結果が異なる
データ分析を行う場合、売上情報となるトランザクションデータと、会員情報となるマスタデータを結合して、分析結果を出すことは多いと思います。この時、どちらの情報をベースとして、全ての情報を出し、それに付加情報を追加するかによって、分析結果が異なります。今回は、「会員番号を持っている小売り店の売上情報」から、データの親子関係について紹介したいと思います。
売上情報をベースとして、会員情報を付加するパターン
分析の対象期間の売上情報に対して、紐づく会員情報を付加するデータです。2つのデータ集合をベン図で表現すると下記のようになります。
このデータの特徴として、会員、非会員に関係なく、全ての売上情報を分析できます。そのため、分析期間内の純粋な売上の分析を行うのに最適なパターンのデータとなり、分析期間内の会員/非会員の売上割合、会員/非会員の購買傾向なども様々な分析が行えます。そのため、売上分析でもっとも標準的なパターンになります。
また、ID-POSの売上分析では、必ず会員情報が紐づくため、「非会員購買」情報は基本的に存在しません。そのため、「非会員購買」情報が多い場合、会員情報が売上情報より情報が古いか、紐づける方法が正しくない可能性があります。
会員情報をベースとして、売上情報を付加するパターン
全会員情報に対して、紐づく分析対象期間の売上情報を付加するデータです。2つのデータ集合をベン図で表現すると下記のようになります。
このデータの特徴として、分析期間内に購入を行っていない会員情報を分析できます。そのため、年代や性別などの会員の属性(カテゴリ)に着目した購買分析として使われることがあり、会員情報のアクティブ会員率を求める最適なパターンのデータです。また、購入のタイミングを分析できるため、会員情報の中からバーゲンハンターを探し出すことも可能です。
このパターンで注意する点は、全会員情報に対して購買情報の割合が少なすぎる場合の対応です。このような場合は、全会員情報から退会会員を除いたり、一定期間の利用がない会員を除くなどの対応が必要です。
最初にベースとなる情報を決める
この様に、ベースとなる情報が異なると、得られる分析結果も異なります。そのため、データ分析を行うときは、「どのデータ項目を使うか」ではなく、「どのデータ集合をベースにするか」から考えましょう。前提のベースとなる情報を曖昧にした状態では、分析対象のデータ項目も曖昧になってしまいます。