Power BIで実践するPOSデータの事業構造分析を公開
この連載では、2013年11月に弊社CEOの網野が出版した「会社を強くするビッグデータ分析」「Part2 分析の実践」の部分を「Power BIでPOSデータを使って事業構造分析を実践する」という具体的な実践例を紹介しながらアップデートしていきます。
前回までで事業構造分析と利用する分析ツール群とPower BIについての説明が終了しました。今回からいよいよ以下の事業構造分析の実施ステップに合わせて、具体的な分析の実践例を紹介します。今回はステップ1に当たる「データ収集」です。事業構造分析プロセスの以下のSTEP1に該当します。
今回利用するPOSデータの紹介
まず、本連載で利用するデータを紹介します。とある書店のPOSデータの公開許可をいただきました。今回利用させて頂くのは、2013年の1年間の売上および会員データとなります。
まず、売上データは、購入された商品ごとのレコードで、全レコード数は約4.5万件です。データ項目として、「レシートID」、「顧客ID」、「購買日付」、「購買時間」、「商品大カテゴリー」「商品小カテゴリー」、「客層区分」、「内商/外商区分」、「商品名」、「数量」、「税込価格」、「税抜価格」、「決済区分」、「出版社」という項目を持っています。
一方の会員データは、購入した会員ごとのレコードで、全レコード数は約2700件。「顧客ID」「性別・年代」「郵便番号」の項目があります。
本連載ではこちらのデータを活用して事業構造分析の実践を紹介していきます。
データ収集のコツ
今回は上記のように公開データを入手することができましたが、通常、分析用のデータを集める際に留意すべきポイントを3点紹介します。
1. 仮説を検証できる(代替)項目を考える
データ収集時にも、検証する仮説をすでに持っていることは非常に重要です。網野がこちらの記事で紹介しているビューカード様の事例では、「ビューカードを理解して入会して頂いたお客様」は他のお客様と違う振る舞いをするだろうという仮説を事前に持ちました。その「ビューカードを理解して入会して頂いたお客様」を直接的に特定する方法はなかったので、「オンラインから入会して頂いたお客様」を代替指標として、そのお客様がどのような振る舞いをしているかを分析しようという方針を立てました。
このケースでは、当初ビューカード様から預かる予定のデータには、オンラインを含む入会経路が紐づいていませんでした。それを事前に仮説を持っていたため、入会経路をわざわざ紐付けていただいたあと、データを受領しました。もし事前に仮説を持っておらず、データ受領の際に入会経路がないデータを受領していた場合は、目的の分析を実施できなかったはずです。
このようにデータ収集の際には、仮説を検証するための項目を直接的に、もしくは代替項目を明確にして、それを含むデータを収集するよう心がけることは大変重要です。
2. データの粒度 → 生データをそのままもらう
データの粒度は細かいほうが望ましいです。もらえるのであれば、生データをそのままもらいましょう。一昔前は、粒度の細かい生データをいただいても集計できなかったり、重くて動かないということがあったので、最適なデータ粒度データ受領時に設定する必要がありました。その場合、すでに集計されたデータであるため、後から切り口を変えて分析したいときに、切り口を変えられないということがよく起こったかと思います。
それが今は時代がかわりました。分析者の手元でも、生データを自分が見たい切り口で集計できるようになっています。そのような分析ツールが出てきていることは前回ご紹介したとおりです。自分が用意した分析ツールで処理・集計できる範囲を把握した上で、できる限り生に近いデータをもらうようにしましょう。
3. 想定しているものより広めの範囲で
仮説を立てて、仮説証明のための必要データをしっかり定義した上での話ですが、データを収集する範囲は、必要データ範囲より少し広めに広げて収集できるとベターです。仮説検証をする際には1回の検証だけで終わることは少ないので、2回目以降の仮説検証を行う際に、当初想定していなかった形で集めたデータが役立つことがあります。いつも収集できるとは限りませんが、収集できる範囲は少し広め拾っていくにという「心がけ」は持っておきましょう。(もちろん時間とのトレードオフですが)
本日は、事業構造分析の分析プロセス ステップ1にあたる「データの収集」について、POSデータの紹介とデータ収集のときの留意点を紹介しました。次回は分析STEP2の「データ格納、確認、前処理」について説明します。