ビッグデータとは? ~大量データという意味だけではない~|データ分析用語を解説
f t p h l
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
「ビッグデータ」を扱うためには、既存の概念に捕らわれていてはダメ
世の中に「ビッグデータ(big data)」という言葉がニュースやインターネットで出始めたのが2010年頃。テクノロジーの進歩やクラウド環境の充実などによって急速に広まり、一般の人にも知られるようなテクノロジー用語になってきました。そして、「クラウド」と同様に「ビッグデータ」を導入することがテクノロジーのトレンドのように扱われ、頻繁に導入事例が各種メディアで発表されています。
しかし、「ビッグデータ」という言葉から、大量データを扱う事は分かっていても、どのようなデータを扱っているか? どのような効果があるか? を知っている人は少ないのではないでしょうか? 今回は、「ビッグデータ」について、データ分析者の視点から説明したいと思います。
ビッグデータとは?
ビッグデータについて、IT用語辞典の内容を転記します。
ビッグデータとは、従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。
多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。
引用:IT用語辞典|ビッグデータ
この様に「ビッグデータ」という言葉には、「巨大なデータ」、「様々な種類・形式のデータ」、そして、それらを扱える「仕組みやシステム」という3つの要素が含まれています。
ビッグデータで扱える非構造化データとは
従来のデータ分析では、データベース(DB)に登録されたデータだけを使用してきました。これらは、「構造化データ」と呼ばれ、CSVファイルやExcelファイルのようにデータ項目の個数や並び順などが決まったデータでした。しかし、ビッグデータでは「構造化データ」以外に「非構造化データ」の中の一定の規則性があるデータについて、ファイルデータからデータ項目単位で値の検索、取得などが行えるようになりました。(参考:構造化データと非構造化データとデータの規則性)
ビッグデータは構造が複雑なのが問題
ビッグデータを扱う上で問題となってくるのは、データ量よりデータ種類数や構造になってくると思います。なぜならデータ量は、高度なソフトウェアとハードウェアがあれば時間は多少かかってもデータ分析可能です。そして、近年ではクラウドサービスの進歩によって、これらの環境が安価、かつ容易に準備することができます。しかし、ビッグデータ分析では、今まで対象にならなかったデータ種類を扱うことができるため、データ種類を組み合わせたり、扱う事が困難なデータ構造を分析する必要が出てきます。
例えば、GPS情報を送信しているスマホアプリの場合、GPS情報(位置情報)をどのように分析するか? ユーザーのアプリ操作情報とGPS情報をどう紐づけるか? 分析結果をどのように表現するか? などが課題になってきます。
ビッグデータを扱う思考とプロセス
よくあるビッグデータの導入事例として「テラバイト級のデータを1時間で分析できるようになりました」のようなデータ量やスピードを前面に出した物を見かけます。しかし、ビッグデータ分析で重要なのは、単純なデータ量の処理能力ではなく、多くのデータを使う事で新たな価値を発見ができるかです。大量のデータを扱っても、その中から直近のデータをサンプリングして分析しただけでは、ビッグデータを分析したことにはなりません。
ビッグデータ分析は、今まで扱ったことがないデータ量、種類、構造を扱います。そのため、一回の分析プロセスだけでベストな分析結果が出るとは限りません。様々なアプローチで分析を行い、その中から新たな仮説を導き出し、更に様々なアプローチで分析する必要があります。このような分析サイクルを効率的に回せるプロセスがビッグデータ分析では重要になってきます。
関連記事
f t p h l