「ビジネスの理解」と「データの理解・準備」
今回からギックスの分析体系の中身についてお話していきます。本日は「ビジネスの理解」と「データの理解・準備」の話です。ギックスのビックデータ分析体系では以下の赤枠にあたる部分です。
ビジネスのインパクトを常に意識すること
まず、「ビジネスの理解」ですが、ビジネス上のインパクトを常に意識することは、分析をするにあたって最も重要なことと言っても過言ではありません。数字の好きな理系上がりのデータサイエンティストの方がしてしまいがちなミスとして、分析を繰り返すうちに数字の世界に没頭し深く入り込んでしまい、細部や枝葉の部分を追求してしまうことがあります。結果、「この分析結果は面白いかもしれないけど、これってビジネス上どのように使うの?」という話になってしまいます。
そうならないためにも、まずビジネス上の狙いを明確にし、そこに沿った形での分析を心掛けましょう。分析って面白いので数字を追いかけたくなる気持ちになるのはすごく良く分かるのですが、ビジネスの狙いと合っていない分析をしてしまうと、せっかく時間をかけてした分析作業がすべて無駄になります。ここには細心の注意を払うようにしてください。
分析の4つの型
「ビジネスの理解」には、分析の型を決めるという作業も含まれます。分析の型には大きく分けて以下の4つが存在します。
- 探究型
- 原因追求型
- PDCA型
- 予測型
1.の探究型は、特に事前に答えを持たず、データをいろんな角度から見て新たな気付きを得るという、いわゆるデータマイニングです。
2.の原因追求型は起きた事象の原因をデータから探るタイプの分析です。起きた事象を仮説に置き換えての仮説検証のための分析もこの型にあたります。
3. のPDCA型は、何か実施した施策の効果測定のための分析です。例えばキャンペーンを実施した際の効果を見るための分析がこの型にあたります。
4.の予測型は、統計モデルなどを作成します。例えば特定商品を購入しそうな顧客をロジスティック回帰式で分析して、スコアリングするといった分析は、予測型の分析です。
4つの分析の型のうち、4.の「予測型」は、前回ご説明したギックス分析プロセスでいうところの「モデリング」でしか実施できないですが、1~3の「探究型」「原因追求型」「PDCA型」は、「2次属性の作成」と「セグメントの特徴把握」までの分析で完了してしまうことが多いです。そういう意味でも、前回ご説明した通り、「2次属性の作成」と「セグメントの特徴把握」というプロセスは非常に重要な作業と言えるでしょう。この内容については次回以降詳細に説明いたします。
欠損値・異常値の確認と要約統計量の把握
「ビジネスの理解」の次のプロセスは「データの準備・理解」です。特に、利用できる各データ欠損値や異常値を確認が必要です。ギックスの分析体系の図にあるAktblitzIIやSuper Realizmなどのデータ処理ソフトで各項目のNull値を確認することで欠損値は取ることができます。一方で、データ項目の平均、分散を取り、その上で最大値や最小値を確認することで異常値も確認することができます。
これらの作業もビッグデータでは簡単にはできなかった作業ですが、テクノロジーの進歩の恩恵で作業が簡単にできるようになっています。興味のある方はAktblitzIIやSuper Realismには試用版もあるようなので、ぜひ一度試してみてください。