ビッグデータは神話から実現へ変わるか?(ReadWriteより)/ニュースななめ斬り by ギックス

AUTHOR :   ギックス

2014年、ビッグデータは神話から現実へ変わる(邦訳サマリ)

これまで多くの企業にとってBig Data は漠然とした存在であり、 根拠も明確で無いまま、戦略上優先度の高いタスクとして掲げられてきた。2014年には神話のように語られていたことが間違いであったと気付かされるだろう。

どんな分野でも精通するには時間がかかる。新しい分野において失敗はつきものであり、失敗にかかるコストを最小限に抑えることこそが重要だという点だ。

ガートナーのアナリストも述べているように、企業のBig Dataプロジェクトは図1のように段階的なアプローチを辿る。

【図1】

本間さん記事2_1

ステージ毎に見られる代表的な神話と現実を紹介しよう。

Big Data 新米ステージ

神話その1:
「Big Dataはデータ量の多さ (Volume) にまつわる問題」
そもそも、ビッグデータの定義が理解されていない為に、テクノロジーを選定する際などに「大量データが扱えればいい」というような誤解を招いている。

この考えは未だによく聞かれるが、図2のように多くのBig Data プロジェクトに携わった人間は、Big Dataにおいては量よりも頻度(velocity)や種類(variety) の方が重要な特性であると答えている。

【図2】

本間さん記事2_2

神話その2:
「Big Dataを支える技術とはHadoopのことである」

Hadoopに囚われすぎる事で、異種データのリアルタイム処理を得意とするNoSQLなど他の技術の探索から企業を遠ざけてしまっている。

Big Data初心者ステージ

神話その3:
「ソーシャルメディア等、企業外に存在する非定型データの分析が最重要」

実際は、企業内のRDB 等に眠っている定型データの活用が鍵を握るケースも多い。要は分析対象となるデータの種類が重要なのではなく、答えるべき問いの設定が重要なのである。

この段階では特定のエンタープライズを導入したことで、「十分なデータ量さえ、確保できれば何でもできる」という間違った認識を持つことがある。この間違った認識を招いているのは「非定型データを掘り起こすことで、ビジネス上の課題は解決できる」という誤解である。

正しくは「Big Dataを活用するにはまずデータを蓄積すること、次に問いを設定する」ということだ。例えば、レジのトランザクションデータを前に明確な問いが設定できていれば、Big Dataに頼らずともRDBでも十分な答えを導き出すことができるかもしれない。問いの内容によっては、トランザクションデータだけでなく天気、ソーシャルデータとの紐づけ等が必要なる、その時初めてBig Dataを活用すればいい。

既に大量のデータが基幹システム内に蓄積されているが、そのデータを活用しきれていないということが多くの企業で起こっている。
Big Dataの活用にはデータは必要不可欠であるが、答えるべき問いが設定できていないのであれば、いくらデータと分析環境を整えたところで「宝の持ち腐れ」である。

Big Data経験者ステージ

このステージでは積極的に分析やその検証作業に注力しているが、人材不足や技術者のスキルが追いついていないという悩みを持っていることが多い。

神話その4:
「データサイエンティストが不足している」

この”データサイエンティスト”という単語自体もある種の神話である。”データサイエンティスト”を見つけることは困難ではあるが、実際にはその必要はない。

なぜなら、データサイエンティストは”個人”ではなく、ビジネス、分析、IT技術などの異なるスキルセットを持った専門家で構成される”チーム”で良いからである。そもそも、複雑なビジネス上の課題に挑むには個人では限界があるし、先に述べたようにデータを前にして、「答えるべき問い」の設定が重要であるため、様々な分野のメンバーで様々なアイデアを出せるチームを編成することが非常に重要である。

Big Data専門化ステージ

 神話その5:

「分析で競争優位性を保つには、高価なシステムを保有し続けなければならない」

Big Data導入プロジェクトも後半に差し掛かると、予期せぬ現実に直面する。例えば、Hadoopの導入にはそれなりのコストがかかる事などが発覚するのだ。そして、基幹システムがコモディティー化する中で、競争優位性を保つには高価なシステムを買い続けなければならないと思われがちだが、実際にはそんなことはない。いくつか、素晴らしい製品も開発されているし、Big Dataにおいては、「高かろう良かろう、安かろう悪かろう」はあまり当てはまらない

神話その6:

「定型データより、非定型データの方が分析する価値がある」

今後分析が更に進めば、定型データからも多くの発見が得られることが実感されるだろう。確かに非定型データが企業の情報の8割を占めているのは事実だが、その分ゴミデータ等も多く、既に余分なデータが省かれている定型データの方がよりデータとしての質が高いとも言われている。

近い将来更なる技術の進歩により非定型データの活用手法も向上すると考えられるが、これが現時点での現実である。

コメント

ガートナーの発表(2013年10月)によれば、日本においても、Big Dataはハイプサイクルでいうところの「ピーク期」から「幻滅期」への移行時期に差し掛かっているとの報告です。

Big Dataへ過度な期待や神話が現実に修正される2014年には、知らなかった世界が何でも見えそうという幻想から目覚め、そもそもデータを何のために分析し、どのように解釈し、どう活用するのか、というとても基本的な立ち位置に戻り、冷静な洞察力と判断力がより一層求められてきそうです。

Minatsu Honma)

出所:Big Data Myths Give Way To Reality In 2014

本記事は、Minatsu Honma氏から寄稿頂き、ギックス名義で投稿しています。

 

SERVICE