第5回 STEP2 データの格納・確認・前処理|POSデータで事業構造分析 with Power BI
- TAG : Microsoft_Power_BI活用術 | POSデータ | Tech & Science | ビッグデータ分析 | 事業構造分析
- POSTED : 2015.02.23 09:03
f t p h l
Power BIで実践するPOSデータの事業構造分析を公開
この連載では、2013年11月に弊社CEOの網野が出版した「会社を強くするビッグデータ分析」「Part2 分析の実践」の部分を「Power BIでPOSデータを使って事業構造分析を実践する」という具体的な実践例を紹介しながらアップデートしていきます。
前回はSTEP1の「データ収集」について紹介しました。今回はSTEP2の「データの格納・確認・前処理」について紹介します。事業構造分析プロセスの以下のSTEP2の部分です。
Power BIでのデータ格納・確認・前処理
前回のSTEP1のデータ収集の記事で、「データはできるだけ生データのまま収集すること」とお伝えしましたが、その生データをPower BIに格納して、確認、必要な前処理をするのが今回紹介するSTEP2のプロセスになります。
事業構造分析をサマリーデータではなく生データを集めて実施する場合に、頻繁に発生するデータ処理があります。トランザクションデータ(明細、取引データなど)とマスタデータ(会員データなど)を会員IDなどをキーに紐づけする、すなわちデータベース用語で”JOIN”と呼ばれるデータ処理です。今回は、このJOIN作業をPower BIでどのように処理するのかを紹介していきましょう。
エクセルでできるものはエクセルでが原則
さて、Power BI特有の”JOIN”作業を紹介する前に一点留意していただきたいことがあります。それは、それほど大量でないデータの”JOIN”や複雑でないデータの”JOIN”を行う場合には、普通にエクセルを使って処理してしまっても問題ないということです。Power BIの一つの特徴として、使い慣れたエクセルをそのまま利用できるということがあります。これから説明するPower BIでのJOINはエクセルでもvlookup関数を使えば、エクセル内でも実施することは可能です。簡単にできるものは簡単に処理してしまうということが分析業務における大原則でので、エクセルでできるものはエクセルでしてしまいましょう。この方針はこの連載中に何度か出てきますので、ぜひ心に留めておいてください。
ただ、エクセルでは処理しきれない、もしくはエクセルで処理すると重たすぎてデータをスムーズに処理できない場合があります。例えば、100万行を超える、もしくは100万行に迫るデータをあるキーをベースにJOINする場合、前者はエクセルでは処理しきれませんし、後者はエクセルのvlookupで処理すると非常に時間がかかります。
そういった場合は、Power BIのPower Pivotを利用すると簡単に処理できるということをぜひ知っておいてください。
Power Pivotの機能を使ってJOINを実施
ではいよいよPower Pivotを使った”JOIN”の紹介です。事業構造分析で利用している書店のPOSデータを利用して、具体的にPower Pivotで会員データとトランザクションデータをJOINする例を紹介していきます。以下の手順で”JOIN”を実施することができます。
①エクセル上でのデータ準備
結合対象の2つのデータセットを同一ブック内の別シートに格納します。今回のデータでは「トランザクションシート」にトランザクションデータを、「顧客マスタシート」に会員データを格納します。
②Power Pivotへのデータ格納
結合対象のデータの一方、今回の場合はまずトランザクションシートを選択した上で、上のメニューの「Power Pivot」をクリックし、「データモデルに追加」を選択します。
データ範囲が正しいことを確認し、「先頭行をテーブルの見出しとして使用する」にチェックを入れて「OK」をクリックします。
すると、自動的に新しいウインドウでPower Pivotを起動するので、データが格納されていることを確認できます。
上記が完了したら、エクセルに戻って今度は結合対象のもう一方のデータを格納したシート、今回のケースでは「顧客マスタ」シートを表示し、上記と同様の処理を実施します。ここまで作業すると2つのデータセットがPower Pivotに読み込まれることになります。
③データの結合
Power Pivotウインドウで「ホーム」「ダイアグラムビュー」を選択してください。
先程データ格納した二つのテーブルが表示されるかを確認して、テーブル1の顧客IDをクリックし、ドラック&ドロップでテーブル2の顧客IDの上まで運びます。すると二つのテーブルにリレーションが張られます。このように非常に簡単にJOIN作業が完了します。
④結合したデータの表示
Power Pivotウインドウから「ホーム」「データビュー」を選択してください。
テーブル1シートを表示し、データが入っている部分より更に一列右の列(「列の追加」と表示されている列)の列全体を選択して、画面上部の計算フィールドに以下の関数を入力します。
=RELATED(‘テーブル2′[郵便番号])
この作業により「CalculatedColumn1」として顧客ID列と対応した郵便番号が表示され、結合対象の二つのデータが紐づくことになります。
今回は、事業構造分析のSTEP2 データの格納・確認・前処理として、Power BIの中のPower Pivotモジュールを利用したデータJOINの手法について説明しました。次回は、STEP3の「分析方針の検討」における留意点を紹介します。
f t p h l