「データレイク」のコンセプトを理解しよう|Treasure Data(トレジャーデータ)は、まさにデータレイクだ
- TAG : Tech & Science | いまさら訊けないビッグデータ分析 | データハンドリング | データレイク | ビッグデータ分析の留意点 | マーケティング・テクノロジスト
- POSTED : 2015.06.17 14:58
f t p h l
目次
データレイクは登場したばかり。既存のサービスと比べて理解を深めよう!
こんにちは、技術チームの岩谷です。前回、データレイクについての記事を執筆させていただきましたところ、何人かの方々から「それならデータレイクはトレジャーデータのソリューションに近いと感じるのだけれど、どう思う?」というご意見をいただきました。本日はこれについて私見ではありますが綴らせてください。
第一印象「データレイクはトレジャーデータだ!」
まず、前回のおさらいをさせてください。前回私は、
- データレイクはビッグデータ処理に求められる進化の要素を備えたストレージ(ファイル置き場)。要素は主に2つ。
- 1つ目は非定型データからのデータ取り出し → ファイル形式を横断して共通的な手法でデータを取り出したい。
- 2つ目は分散処理に対する最適化 → ビッグデータ処理の仕組みであるHadoopとの密接な連携により簡単・高速にデータを処理したい。
と述べました。ここでさきほどの問に対する私の答えを述べさせていただけるのであれば、「そうです。データレイクはトレジャーデータさんのソリューションそのものです。」とお答えしたいです。トレジャーデータさんが行っているデータ処理のプロセスを「ストレージとしてのコンセプト」の視点から見たものが「データレイク」だと感じたのが私のデータレイクに対する第一印象でした(ちなみにトレジャーデータさんは以前のカンファレンスで、「トレジャーデータは入力データから分析アウトプットまでの全ての仕組みを”データのパイプライン”として提供します」とおっしゃっていました)。特に上記bとcに関してはまさに彼らの真骨頂とも言えるもので、彼らは世界に先駆けてビックデータハンドリングに関するソリューションを提供し、今もって業界のトップランナーとして走り続けています※1。
※1…トレジャーデータに格納されたデータの取出しには「ANSI-SQL (Presto) やHiveQLが利用されています。
しかしここで、あえて違いを一つだけ
ここで「あえてトレジャーデータさんがデータレイクっぽくない点」を一つだけ挙げさせていただきます(しかしこれも狭義の解釈の違いに過ぎないので「データレイクじゃない!」と申し上げるつもりはありません)。それは「データレイクは自身に格納されるファイルの形式は問わない。どんなファイルでも格納する。」事に対して「トレジャーデータに格納されるファイルはjson形式である。」という違いがある事です。トレジャーデータのデータ格納庫は「ストレージ」というよりも「データベース」というコンセプトを色濃く持っているように感じます※2。
しかし、これは「トレジャーデータさんの劣っている箇所ではない」です。トレジャーデータさんは自身の取り組みとして「トレジャーデータにデータを投入する為のとても便利なモジュール」を用意しているのです。このモジュールを「fluentd(フルエントディー)」といいます。fluentdはいろいろな形式のファイルを入力ファイルを読み取ってトレジャーデータに投入する機能を持っています。これによって「CSVファイルからトレジャーデータにデータを格納」や「XMLファイルからトレジャーデータにデータを格納」という非定型フォーマットに関するデータ格納を利用者に不便を感じさせることなく行っているのです。
※2…データレイクのコンセプトとして「データレイクはリポジトリである」という方もいらっしゃいます。リポジトリとは「データの格納庫」という意味で、「ストレージ」という言葉が「ファイル1個1個を管理する」という意味合いが強いのに対して「リポジトリ」という言葉は「データを格納するまでは同様だが、格納データの単位はファイルと同じ単位ではない(100個のデータを100個のファイルで管理するわけではない)」という意味合いを強く持っています。この言い方をあてはめるならば本題においても「トレジャーデータはデータレイクのコンセプトとかさなっている」といえると思います。
データレイクはこれから進化する
今回はデータレイクのコンセプトをトレジャーデータさんのソリューションをといっしょに説明させていただきました。この他にもテラデータ(Teradata)さんやマイクロソフトさんのAzure・EMCさんなど、さまざまなプレイヤーがデータレイクに対しての取り組みを進めています。その中で今回紹介させていただいたようなコンセプトの延長線上に新しい機能が出現するのかもしれませんし、世の中のニーズによってまったく違った進化の仕方をするのかもしれません。我々もその動向を注視しながらデータレイクの活用や、できることなら技術者としてその進化の一翼を担いたいと思っています。
【関連記事】
f t p h l