目次
先頭は Talend Data Preparation。それに追随する Google Cloud Dataprep と Tableau Project Maestro の登場でグリッドクレンジングツール戦線は激化する
データ分析にとってデータクレンジング処理は、その後の”データ分析の質”に関わるため、非常に重要な作業です。しかし、データクレンジング処理は、非常に重要であると同時に、非常に面倒な作業です。なぜなら、データ分析とは異なるスキルであるETLツールやプログラミングが必要になり、時には大量データを処理するためにHadoopフレームワークなどの並列分散処理を行うためのサーバーシステムを構築することになってしまいます。それらを打開できるかもしれないのが「ブリッドビューを使い視覚的にデータクレンジングができるツール」です。これから、この新しいクレンジングツールについてご説明します。(正式リリース前の情報については見解です)
【参考】執筆時(2017.07.08)の各ツール/サービス状況
- Talend Data Preparation:正式リリース
- Tableau Project Maestro:セッションビデオのみ公開
- Google Cloud Dataprep:非公開ベータ
グリッドクレンジングツールはデータクレンジングのブルーオーシャン
※話を始める前に「ブリッドビューを使い視覚的にデータクレンジングができるツール」というのは長すぎるため、「グリッドクレンジングツール」と仮称を付けさせてもらいます。(執筆現在、しっくりくる名前が定着していませんでした)
データクレンジング処理は2つの目的があります。1つ目は「データベースにデータ取込できる形への加工」。2つ目は「データ分析に最適な形への変換」です。これらの目的からグリッドクレンジングツールに位置づけについてご説明します。
データベースにデータ取込できる形への加工
1つ目のデータ加工処理は、登録先のデータベースのテーブルに合わせて、JSONデータフォーマットをCSVデータフォーマットに加工などの非構造化データから構造化データへの加工、または自然言語を単語ごとに分解のような処理になり、処理内容は多種多様になります。それらの需要に応えられるよう、ETLツールやプログラミングのような加工処理に特化した高度なスキルが必要になります。
データ分析に最適な形への変換
2つ目のデータ変換処理は、CSVデータフォーマットなどのデータベースに無加工でデータ取込可能なデータファイルに対して行う処理です。処理の内容としてはデータ項目に対してコード値の名称変換、文字列分解など単純な処理が多いです。そのため、データ量が少なければ、Excelやテキストエディタを使って処理することも可能です。
しかし、ある程度データ量が増えてくると、これらのアプリでは編集が難しくなります。そのため、ETLツールなどでデータ変換処理を行いますが、これでもデータ量が多くて時間が掛かる場合はHadoopフレームワークなどの並列分散処理に頼るしかなくなります。
グリッドクレンジングツールは、このデータ変換処理を行うため新たな選択肢です。グリッドクレンジングツールは「単純なデータ変換処理を大量データに対してに行う」場合に非常に有効です。この領域に対しては、目立った製品・サービスはなく、2016年春に無償のデスクトップ版がリリースされた Talend Data Preparation のみでした。しかし、2017年に入り、Google Cloud Platform(以下、GCP)の Google Cloud Dataprep、Tableau Project Maestro という同一コンセプトのツール/サービスがリリース予告されるなど、これからの賑わいそうな領域になってきました。
グリッドクレンジングツールの特徴
データ変換はExcel感覚で行える
グリッドクレンジングツールはグリッドビュー上で列(データ項目)の分割/削除やコード値の一括置換などを行います。基本的な操作の中にプログラミングを行ったり、トリッキーな操作はないため、クレンジング未経験の非エンジニアでもExcelのような感覚でデータ変換作業と確認が行えると思います。(イメージはTalend Data Preparation)
また、Tableau Project Maestro は、BIツールの Tableau Desktop と同様にコードマスタファイルのJOIN、別ファイルのUNIONなどがドラック&ドロップで行えるようです。
大容量データに対応
グリッドクレンジングツールは内では並列処理などによって、大容量のデータ変換処理も行えるようです。(無償の Talend Data Preparation Desktop は除く) Talemd社やTableau社では、長年、ETLツールやBIツールで蓄えたノウハウがあるため、大量データを効率的に処理することに可能だと思います。また、Google Cloud Dataprep は、高性能なGCPクラウド上で実行されるため、処理できるデータ量に期待が持てそうです。
データ構造を直感的に確認・変更できる
大量データファイルになると「データ項目の中にどんなデータが入っているか」を把握するのも一苦労です。しかし、グリッドクレンジングツールでは、データ項目ごとにどのようなデータが含まれているかを分析してくれます。クレンジング処理が必要ない場合でも、これらのデータ項目の情報をベースに、データ登録先のテーブル設計や分析方針の初期検討などができるため非常に便利だと思います。
グリッドクレンジングツールは主要サービスへの呼び水
グリッドクレンジングツールは処理結果のデータ出力先として、自社の主要サービスへのデータ連携をしているようです。例えば、Google Cloud Dataprep は Google Cloud Storage や Google BigQuery(データベース)、Tableau Project Maestro は Tableau Online(BIツール)のように機能連携しているようです。また、有償版の Talend Data Preparation は処理内容を Talend Data Integration(ETLツール) に連携し、機能拡張できるそうです。
特にGCPにとって Google Cloud Dataprep はデータ分析サイクルを回すために非常に重要な機能になると思います。GCPでは、データ蓄積として Google Cloud Storage、データ分析・抽出として Google BigQuery が中心的なサービスになっています。この2つを繋げる Google Cloud Dataprep は、Google BigQuery への強力なデータインポートサービスになります。これらと Google Cloud Machine Learning Engine と繋げることで、GCPの高度な Machine Learning の予測結果を Google BigQuery に簡単に戻すことができるようになります。
グリッドクレンジングツールの今後
データ分析業務にとって、クレンジング作業は非常に重要な作業ですが、分析作業の本丸と異なるため、可能な限りクレンジング作業を短時間に済ませ、分析の試行錯誤に集中した方が価値を出せると思います。そのためには、クイックにクレンジング処理を行えるグリッドクレンジングツールは非常に有効な手段だと思います。これらツールやELT処理、データレイクなど新たな手法を取り入れて、大量データでも迅速に分析データの準備ができる体制が必要になってくると思います。