「確率がとても低い事象の分析」に全量データ分析は威力を発揮|ビッグデータ分析の留意点②
- TAG : Tech & Science | ビッグデータ分析 | ビッグデータ分析の留意点
- POSTED : 2014.03.09 10:56
f t p h l
「ロングテール」に代表される確率が低い事象には全量データ分析
本日は、全量データ分析の優位性①にあたる、以下のポイントについて説明します。
優位性①:確率が低い事象を扱う場合に、サンプルデータでは得られない知見が得られるという点で、大きな優位性がある。
確率が低い事象の代表例として、「ロングテール」の分析が挙げられます。「ロングテール」にあたる商品の購買行動の分析は、 Amazonの成功事例を引くまでもなく、Webマーケティングの分野を中心に、もはや無視できないものとなってきています。しかしながら、数百~数万程度のサンプルデータを用いた分析では、購買率が1%を切るような商品は、該当するサンプル数が一桁、場合によってはゼロとなり、統計的に意味のある分析を行うことができませんでした。
例えば、こうした「ロングテール」の商品をどのような属性の人が買っているのかを分析し、「買いそうな属性に該当するが、まだ買っていない人」にリコメンデーションを行うために、購買行動を被説明変数に、性別、年齢、居住地などの属性を説明変数にしたロジスティック回帰分析を行ったとします。ロジスティック回帰分析とは、被説明変数が「1-0」、すなわち、購買行動の場合は「買った」または「買っていない」という場合に、重回帰分析の代わりに用いられる分析手法です。(ロジスティック回帰分析の詳細については、別連載での説明を考えております)
言うまでもなく、先ほど述べたような購買行動を行ったサンプルがゼロの場合は分析そのものが行えませんし、仮に一桁だった場合でも、購買行動を行った人の属性を傾向として析出するためにはサンプルが少なすぎることから、統計的に分析しても有効な説明変数を得ることができません。
しかし、ビッグデータの全量分析では、「ロングテール」の商品でも、充分な数の購買行動を行ったサンプルを得ることができます。そこで、先ほど説明したようなロジスティック回帰分析を行えば、重要な説明変数を統計的に抽出することが可能となります。
「顧客の退会」「バスケット分析」も全量データ分析で
こうした分析は、「ロングテールの購買行動」に限らず、他の「確率がとても低い事象」にも威力を発揮します。例えば、「顧客の退会」というのは、確率は低くても、企業にとって非常にクリティカルな事象です。しかし、ロジスティック回帰分析などの手法により、要因を統計的に分析することができれば、打つべき施策も見えてくるのではないでしょうか。
もちろん、購買行動の要因を分析するだけではなく、「おむつとビール」のような、購買行動同士の相関、すなわち「一緒に買われるもの」をみるマーケットバスケット分析でも、主要な商品だけではなく、ロングテールの商品を分析対象にでき、かつそこからリコメンデーションを生成できることから、ビッグデータの分析は非常に有効です。
ビッグデータの全量分析を実施するためのハードルは非常に下がってきており、今ではそれほど費用をかけずに分析環境を構築できるようになってきています(ギックスのビッグデータ分析体系 ⑧:Quick Startのための分析ツールとは)。こうした様々な重要なインサイトを得られるという点で、サンプルデータではなく、ビッグデータを分析する優位性は、非常に大きいのではないでしょうか。
【当記事は、ギックス統計アドバイザーの中西規之が執筆しました。】
中西 規之(なかにし のりゆき)
ギックス統計アドバイザー。公益財団法人日本都市センター研究室
f t p h l