本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
ビッグデータ処理基盤「Hadoop」をクラウドから利用する
以前より、クラウドサービスサービスについて説明させていますが、今回は「クラウドHadoopサービス」です。まず、「Hadoop(ハドゥープ)」に関しての説明はこちらをご覧ください。
以前の記事で「Hadoop(ハドゥープ)」とは、
- 巨大データの取り扱いを目的とした分散処理のフレームワークである
- 分散処理によってビッグデータを高速に処理することができる
- Hadoopの利用者は自作したデータ処理のプログラムや他者が開発したツールプログラムをHadoop内に組み込んでビッグデータ処理を行う
と説明させていただきました。Hadoopの登場や広まりによってビッグデータ分析処理は劇的に効率化され、多くのデータ分析業務に携わるみなさんがその恩恵を受けています。
しかしここで、Hadoopを利用するユーザはさらに贅沢な要求をHadoopに対して抱き始めます。それは「Hadoopサーバそのものの構築と運用に対するコスト」の削減でした。Hadoopは「分散処理のフレームワーク」であるがゆえに稼働環境の構築には専門技術者の存在が不可欠です。また複数台のコンピュータを用いて処理を行うことからそれらの運用作業にかかるコストも無視できないものがあります。
クラウドサービスの導入で「サーバ構築不要・保守作業軽微なHadoop環境」を「即時に!」手に入れることができる
今回のテーマである「クラウドHadoopサービス」は上記の要求に対して非常に有効な解決策を与えてくれます。利用者がブラウザの管理画面から「クラウドHadoopサービス」を操作する事によってHadoopの稼働環境がクラウド上で自動的に構築されます。ハードウェアやネットワークに関する高度なスキルは必要とされません。また稼働中のコンピュータの状態はクラウドサービス上からの状態監視が行われており専門の運用者がつきっきりで保守運用作業をする必要もないのです。これらの自動化はクラウドベンダの持つ優れた仮想化技術に支えられており、我々が享受できるメリットは非常に大きなものとなっています。それに加えて見逃せないのが「環境構築スピードの早さ」です。仮想化技術なしにハードウェアにHadoop環境を構築しようとした場合、1週間以上の構築期間が必要なことも珍しくありません。「クラウドHadoopサービス」はこれをわずか数分に短縮します。まさに非常に衝撃的なサービスを我々は利用する事が出来るのです。
便利なツール(=汎用的なHadoopアプリケーション)も一緒に利用できる
以前の記事で
- Hadoopにはその機能をより便利に利用する為の「汎用的なHadoopアプリケーション」がツールとして存在する
- ツールの一つである「Hive」はHadoop上で稼動するデータベースマネージメントシステム(DBMS)ある
- 同じくツールの一つである「Pig」はHadoop上で稼動するスクリプト環境である
と説明しましたが、これらHiveおよびPigも「クラウドHadoopサービス」を導入することで簡単に利用する事ができます。
具体的なサービス名は?
Amazon Web Services社(通称AWS)が提供する「Amazon Elastic MapReduce(EMR)」、Microsoft社が提供する「Azure HDInsight」といったサービスが有名です。