第3回:CRISP-DMとギックス分析プロセスの違い (2/2)|ギックスのビッグデータ分析体系2.0
- TAG : Tech & Science | クロス集計
- POSTED : 2014.12.02 09:04
f t p h l
目次
示唆だしのために集計結果の可視化を重視する
こちらの記事で紹介したように、2014年10月にギックスの分析体系を更新しました。その更新に伴い、弊社の分析業務を棚卸しすると同時に、様々な文献をあたり、また専門家と議論しながら改めて分析業務の統計的な意味合いや言葉の定義を再考しました。この連載では、分析体系の更新過程で考慮したことの中で、皆様にお伝えし役立てていただきたい内容をピックアップして紹介していきます。
今回も前回同様、ギックスの分析体系の中で横軸に取られている分析プロセスについて、データマイニングの標準プロセスであるCRISP-DMと比較しながら考察します。(ビッグデータ分析体系2.0の図では以下の赤枠の線にあたる部分です)
CRISP-DMとの相違点② 集計・モデリング結果の可視化
前回は変更点の1つ目の「集計による関係性の把握(比較・検討)」というプロセスを紹介しましたが、今回紹介する二つ目の変更点は、下図のように『集計・モデリング結果の可視化』というプロセスを加えている点です。
なぜ『集計・モデリング結果の可視化』というプロセスを必要かという理由を、CRISP-DMと比較しながら考えていきましょう。
多変量を扱うデータマイニングモデル結果のビジュアライズは難しい
まず、CRISP-DMですが、こちらは前回も述べたようにデータマイニング用のプロセスなので、モデリングというプロセス、すなわち「データマイニングのための(数理的な)モデル作り」は”必ず”行われます。そして、そこで作成されたデータマイニング用のモデルのアウトプットは10 変数、20変数に渡る複雑なものになることが多いです。例えば、データマイニングの代表的な手法のロジスティック回帰分析やニューラルネットワークにおいて、10変数、20変数、あるいはそれ以上の変数情報を扱うことは多いですが、それを直接に図示する方法はありません。したがってデータマイニング用のプロセスであるCRISP-DMが「集計・モデリング結果の可視化」というプロセスを含んでいない、括り出していないことは合点がいきます。
集計結果の解釈・示唆だしにはビジュアライズが有効
一方でギックスが実施する分析では、「集計による関係性の把握(比較・相関)」を重要視します。データマイニングに比較して、数理モデルを作成する頻度はそれほど多くありません。全体の分析のうち、8割程度は「集計による関係性の把握(比較・相関)」の繰り返しで重要な示唆を出すことができ、わざわざ数理モデルを作成しないことは、前回に述べたとおりです。
ここでのポイントは、「集計による関係性の把握(比較・相関)」というプロセスからのアウトプットは、集計した結果を解釈し、示唆を出すことのほうが重要たということです。失敗しやすい分析にありがちなのは、分析モデルを作成するプロセスに没頭してしまい、結果を解釈し、示唆を出すというところに力を注がないケースです。本当に重要なのは結果の解釈や示唆だしであることをギックスは強調しています。
集計の結果は、集計された数字を見るだけでも可能ではありますが、結果をビジュアライズして表現したほうが、結果の認知・理解スピードが早くなり、解釈・示唆を出すスピードが早くなります。解釈・示唆だしに使える時間をできるだけ多く使いたいという思いから、結果のビジュアライズに重きを置き、分析プロセスの項目として括り出しているという側面が一つあります。
多重クロス集計の解釈にはビジュアライズが必須
また、「集計による関係性の把握(比較・相関)」というプロセスでは、単純に2変数のクロス集計だけではなく、3重・4重に多変数の集計を実施する場合も多いです。最近ビジュアライズツール、例えばTableauやPower BIではダッシュボード形式で、3重・4重のクロス集計結果をビジュアル表現することができます。このように表現できると、幾重にも渡る変数間の関係性を把握するスピードが圧倒的に早くなります。このように最新BIツールの進歩の恩恵を最大限利用したいという意思を表現するためにも「集計による関係性の把握(比較・相関)」をプロセスとして括り出しています。
この2回で、CRISP-DMとギックスの分析プロセスを比較しながら、ギックスのプロセスの特徴を紹介しました。読者の皆様が分析を実施する際の参考としていただければ幸いです。
f t p h l