目次
Power BI パブリックは大規模データ分析に耐えられるか検証
前回、Power BI DesignerからAmazon Redshiftに接続を行いました。今回は、Redshiftから大規模データを取得し、グラフ作成までを行いたいと思います。また、以前「Power BIブラウザ版」としてご紹介していたサービスは、日本のプレビュー版が公開され「Power BI パブリック」に名前が落ち着きましたので、以後、「Power BI パブリック」でお伝えします。
Power BI Designerでレイアウトを整える
前回のODBC接続方法でRedshiftに接続し、データ取得後、Power BI DesignerでQuery画面で出力項目を表示します。今回、取得したデータは、600万行×17項目のデータです。最初のデータ取得にRedshift(1ノード:dw1.xlarge)でのSQL処理時間を含めて、15分ほど掛かりました。
Query画面でレイアウトを整える
この手法で取得したQuery(データ)は、「Query1」など機械的に名前が付けられます。Query名を変更したい場合は、Query画面の右側のPROPERTIESからNameの変更を行ってください。
前回のCSVファイルからデータ取得した場合、項目のデータタイプが意図しない形式になる場合がありました。今回のODBCからのデータ取得の場合、データ取得結果のデータタイプになっているため、個別項目のデータタイプ設定は、ほぼ必要ありません。
操作によってはデータ再取得を行う
データ取得後は、フィルタ処理、グラフ作成は快適に行えました。しかし、グループ集計(Group by)、最初のReport/Query表示切替を行った場合、再度RedshiftにSQL命令でデータ取得を行うため、最初のデータ取得と同等の時間が掛かりました。
Power BI パブリックでグラフを作成
作成したPower BI DesignerファイルをPower BI パブリックに表示します。(詳しくは、前回の記事を参照してください) 作成されたPower BI Designerファイルは、70MBとデータ量に比較すると小さく、Power BI パブリックへの取り込みも短時間で完了しました。その後のPower BI パブリックでのグラフ作成は、600万件のデータ量を意識しないほど快適に行えました。
Power BIでビックデータ分析を行う場合は取得データを絞り込む
今回、Power BI パブリックでのデータ分析は、非常に快適に行えました。しかし、Power BI Designerでのデータ取得、グループ集計などに多くの処理時間が必要でした。また、同様の項目レイアウトで2,000万件のデータ取得を試みましたが、30分間以上応答なしとなり、データ取得を中断しました。
このことから、Power BI Designerでデータを取得する場合、ODBCからのデータ取得画面(From ODBC画面)で入力するSQL文を使用して、必要なデータの絞り込み、または、集計処理を行い、取り込みを行うデータ量を減らした方が、Power BI Designerでの編集が容易に行えると思います。
(2015/05/22 Update) 別件で「34列 × 6,000万件」の大規模データ取得を行ったところ、約70分掛かりました。取得したデータは、フラグ項目が多かったこともあり、前回の600万件のデータと簡単にデータ量で比較できませんが、少なくともデータ量に応じて、処理時間が掛かることは明白なようです。
【Microsoft Power BI関連の掲載記事】
- 0. ブラウザ版 Power BIについて
- 1. ブラウザ版 Power BIを使ってみた
- 2. Power BI Designerを使ってみた
- 3. モバイルアプリPower BIを使ってみた
- 4. Power BI DesignerからAmazon Redshiftに接続する
- 5. Power BI パブリックでビッグデータ分析にチャレンジ