データレイクとは? ~貯めこんだ様々なデータファイルを参照する技術~|データ分析用語を解説
f t p h l
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
クラウドサービスによってデータレイクは手軽なものになった
ビッグデータ分析技術が進んでいく中で「データレイク」という単語を目にする機会が多くなってきました。しかし、データレイクの言葉の意味についてはあまり触れられていないのが現実です。今回は「データレイク」について難しいことを省いて簡潔に説明します。
データレイク(Data Lake)とは?
そもそもデータレイクは、データベースやBIツールのように用途や目的が決まった製品ではありません。データレイクはデータを扱うための概念でしかありません。そのため、各社で発表しているデータレイクサービス/製品はそれぞれ特徴があり、用途や目的も微妙に異なっています。
ではデータレイクの概念とは何でしょうか? 各社で提唱しているデータレイクについて共通する内容として以下の内容があります。
- ログファイルや画像ファイル、音声ファイルなどを未加工のままストレージ(記憶ディスク)に貯めこむ
- 必要な時に貯めこんだデータファイルの内容を横断的に検索・参照できる
- 検索・参照にはHadoopなどの分散処理基盤を使用する
- 検索・参照にはSQL命令に類似する命令文を使うことが主流
データベースと何が違うの?
データレイクは一般的なリレーショナルデータベース(以下、RDB)と似て非なる物です。データレイク技術はビッグデータ分析でのRDB特有の悩みから生まれたといっても過言ではありません。
RDBのテーブルはExcelのような行(レコード)と列(カラム)の形で登録・管理されています。この形式は構造化データと呼ばれ、「どこに何があるか」が列によって決まっているため、データ管理しやすく、集計や比較などが行いやすいことから十数年もの長い間、データ管理の中核機能として利用されてきました。
しかし、ビッグデータ分析が進むにつれて、非構造化データにスポットライトが当たり始め、既存のRDBでは対応できなくなってきました。なぜなら、RDBのデータ管理はテーブル構造に依存してしまい、列の数や順番が定まらない非構造データは取り扱う事が出来ないためです。更に大量のデータを扱うことになり、今まで想像すらできなかったボリュームの記憶容量が必要となってきました。
そのため、RDBに変わる新しいデータ参照機能としてデータレイク技術が進歩してきました。データレイクはRDBのテーブルのような決まった形に整形する必要はなく、データファイルそのままをストレージに保存します。その後、データ参照するための定義を行うことで非構造化データに対してデータ参照することができます。また、データベース内にデータを保存する必要がないため、データベースの記憶容量を気にすることはありません。
データレイクとクラウドサービスは切っても切れない関係
データレイク技術が急激に進歩してきた背景にはクラウドサービスの進歩があります。ペタバイトクラスの大量データを保存するストレージ、そして、Hadoopなどの分散処理基盤を実行させるための大量のサーバーを用意するためには膨大な資金が必要でした。しかし、クラウドサービスのクラウドストレージを利用すれば、1ギガバイト当たり月々数円から容量無制限にデータ保存可能です。また、Hadoop機能をパッケージングした分散処理クラウドサービスも多く出ているため、技術とコストのハードルは低くなっています。
近年では。Amazon Athena や Azure Data Lake Analytics などのクラウドサービスも発表され、データレイクは非常に手軽な技術になってきました。
関連記事
f t p h l