Talend Data Preparationは分析データの「検証」と「加工」の切り札になる/ニュースななめ斬りbyギックス
- TAG : Garbage in Big “X” Out | talend | データハンドリング | ななめ斬り
- POSTED : 2016.03.23 09:08
f t p h l
目次
Talend Data Preparation はデータに係わる全ての層が使えるデータ検証・加工ツール
データ分析を専門の部署や機関に依頼しようとした場合、分析対象のシステムから分析データを抽出してデータ受渡を行うことがあります。しかし、ここで抽出された分析データの中には、不要なデータや個人情報などの機密情報が含まれている事があります。これらのデータは依頼元の担当者がデータの削除、または置換を行う必要があり、システムに詳しくないビジネスサイドの作業者にとって大きな負担となっていました。また、無理にExcelで修正しようとデータを壊してしまう恐れがありました。
これらを解決するためにTalend社から先月2月にリリースされたのが、「Talend Data Preparation」です。Talend Data Preparationは、データ加工やデータクレンジングを専門にやっているシステムサイドの技術者だけでなく、一般のビジネスサイドのユーザーでもデータの加工が行えることを目的としたツールです。
Talend社について
リリース元のTalend社は、無償でかつ高機能なETL処理などのバッチを作成できる「Talend Open Studio」などをリリースしている企業です。日本では、大規模システムのバッチ作成・運用ツールとして、JP1などの老舗のシステム運用管理システムが導入されているケースが多いですが、Talend社のバッチ作成ツールもAWS(Amazon Web Services)クラウドやIotデバイスと相性が良い、自由度が高いなどの理由で近年導入事例が多くなってきているツールです。
今までTalend社の製品は、バッチの作成を行うシステムサイドのユーザーツールだけでしたが、今回のTalend Data Preparationは、ビジネスサイドのユーザーもターゲットにしたツールになるとの事なので、ちょっと注目しているところです。
Talend Data Preparation Free Desktop をインストールしてみた
Talend Data Preparationは、Talend社の今までの製品と同様で無償版と有償版(商用版)があります。現在(2016.03.17)は、無償版の「Talend Data Preparation Free Desktop」のみがリリースされていますので、早速、試してみたいと思います。
インストール方法は、「Talend Data Preparation Free Desktop」のダウンロードページからインストーラファイルをダウンロードして、インストーラファイルを実行するだけです。多くのシステムサイドの製品は、製品のインストーラだけでなく、Javaなどのランタイムなどを別途ダウンロード&インストールする必要があったため、この辺もビジネスサイドの負担を考慮していると言えるかもしれません。(Talend Data Preparation Free Desktopのインストーラの中にJavaランタイムが含まれていました)
Talend Data Preparation Free Desktop を使ってみた
Talend Data Preparation Free Desktopの画面は非常にシンプルです。ホーム画面にはごちゃごちゃしたボタンやメニューバーはありません。基本的な使い方については、ツール起動時にウィザード方式でボタンの場所を教えてくれるので、そんなに困らないと思います。
データ取込みも非常にシンプルです。画面右上の「ADD DATASET」ボタンをクリックして、Excel、またはCSVファイルを指定するだけです。あとはツールで文字コードや区切り文字を自動的に判断して、表形式に展開してくれます。もし、文字コードや区切り文字が誤っていた場合は、表展開後に修正可能です。
Excelのように文字列コード「00001000」を数字として解釈して「1000」などと表示してしまう事はなく、元の文字列をそのまま表示してくれます。また、ダブルクォーテーション「”」で文字列を括っていれば、カンマ文字も改行文字も文字として扱ってくれます。
読込行数の制限緩和方法
現在、最新バージョン(Version 1.0.1)は、データファイルの読込上限が30,000行までになっています。その上限以上のデータファイルを表示したい場合は、実行ファイル(dataprep.exe)があるフォルダ下のconfigフォルダ下の「application.properties」の「dataset.records.limit」の値をメモ帳などで変更して、Talend Data Preparation Free Desktopを再起動してください。再起動後にデータファイルを読み込むと30,000行以上が読み込めるようになります。(大量に読み込むと動作が重たくなるため注意)
1 2 |
# size limit for dataset in lines (if dataset.lines > limit, dataset is truncated) dataset.records.limit=1000000 |
データ検証機能
分析データを加工する前、または加工後の分析データから仮説をためにも「どういったデータが入っているか?」を確認する必要があります。このような需要に非常に最適な機能があります。
画面右下を使う事で、データ項目の中にデータの分散数、最大値/最小値、最大桁/最初桁、登録フォーマット(パターン)を簡単に確認することができます。これらの情報を使う事でインポート先のテーブル設計時のデータ型、桁数などを決める材料になります。また、データの分散数も分かるため、データ分析で使える項目を探すためにも使えます。
データ加工機能
データ加工機能も非常に充実しています。Excelのようにセル内の文字列の編集、フィルタリング、行や列の削除・複製・入替などの機能があります。また、列内の同じ値のセルを選択すると背景色が緑になり、一括で編集することも可能です。(下記イメージの「CITY」列) この他にも列単位で編集する機能として、アルファベット表記を大文字、または小文字変換に一括変換する機能などがあります。
各列にはデータ型が自動的に設定され、そのデータ型ごとに編集できる内容が異なります。データ型は、自動的に設定されていますが、任意で変更することも可能です。そのヒントとなるのがタイトル行の下にある緑・白・オレンジの帯です。上記イメージの場合、「LAST_NAME」列に「us_county」型が設定されていますが、「us_county」型として扱えない行の割合がオレンジの帯として表示されます。また、白い帯は、空白行の割合になっています。これらの帯の情報を基にデータ型を設定していきます。
編集したデータは、CSVファイルやExcelファイル、Tableauのデータセットファイルとしてエクスポートできます。特にTableauのデータセットファイルは、Tableau Desktopを使う事なくデータセットの準備ができるため、データ準備とデータ分析の分業化が行えそうです。
これからのTalend Data Preparationに期待
Talend Data Preparation Free Desktopは、前月2月にリリースされたばかりの新しいツールです。そのため、各所にバグや動作が不安定な部分があります。現在、最新バージョン(Version 1.0.1)の具体的なバグとして、データファイルが日本語(Shift-JIS)に対応していないことがあります。これらのバグなどは、近い将来、修正されると思います。
【2016.04.07 UPDATE】
2016.04.04にリリースされた「Version 1.1.0」からShift-JISのデータファイルに対応しました。しかし、Talend Data Preparationのファイルのの自動認識ではUTF-16として扱われてしまうため、データセットを一覧表示した後に「Shift-JIS」で再読み込みしてください。
また、今回ご紹介した無償版のTalend Data Preparation Free Desktop以外に、大量データやクラウドに対応した商用版のTalend Data Preparation もリリースされる予定があります。これから、Talend Data Preparationは急激なスピードで機能拡張が行われるそうです。今までTalendの製品は、無償版、商用版ともに優れた製品を発表してきたため、Talend Data Preparationの今後にも注目していきたいと思います。
【連載、Talend Open Studio によるビッグデータ分析】
- ”Talend”と”RapidMiner Studio”、2つのETLツールを比較してみた
- Talendのインストールと初期設定(Windows 8.1編) ~Javaのバージョンに気を付けろ~
- Talendで簡単なジョブの作成
- フォルダ中のファイルを変換して1つにまとめる
- フィルタリングと文字列置換とプログラムによる変換方法
- DB間のデータコピーを2つのコンポーネントだけで行う
- Amazon Redshiftへのデータインポートを2つのコンポーネントだけで行う
- Talendがバッチ処理の開発方法を変える ~スマートな開発を行おう~
- Talendの無償版(TOS)と有償版(Enterprise)の違い
- TOSを使ってMicrosoft Azure SQL Data Warehouseを操作する
- TOSでギガ単位の適切なテストデータを作成する
- Web API からの取得結果をデータベースに登録する処理をノンプログラミングで実現する
f t p h l