サンプル分析から全量分析へ
近代統計学の学問体系は、無限に近い大規模な母集団から無作為に抽出された、数百から数万のサンプルデータが持つ統計的な性質を中心に論じられてきました。たとえば、内閣府が行っている「社会意識に関する世論調査」では、1億2,000万人の日本人、すなわち、「無限に近い大規模な母集団」のうち、10,000人を無作為に抽出し、回答のあった6,091人(平成25年度)のサンプルのデータを分析しています。
しかしながら、周知のとおり、近年のデータ量の爆発的な増大や、コンピュータの演算能力の急速な進歩に伴って、いわゆる「ビッグデータ」をどのように分析するかということが、マーケティングの分野では、特に重要な課題となってきています。ポイントはサンプルを分析するだけでなく、全量データを分析できる時代になってきたということです。数百万件、数千万件の顧客IDのデータをPC上で分析することは、十分可能になってきています。業種にもよりますが、「Tカード」、「Pontaカード」が会員数約5,000万件、「Yahoo!Japan」のアクティブユーザーが約2,400万件ですので、顧客IDが数千万件のデータというのは、B to Cのマーケティングにおいては、割とよくある規模感かと思います。
全量分析だからこそのメリットと留意すべき点を紹介
全量データを分析する場合には、サンプル抽出をしていないため、「無限に近い大規模な母集団=全量データ」となることから、サンプル分析を想定した統計解析の諸手法は理論的には意味がないことになります。しかし、実務的には、サンプル分析を想定した既存の統計手法を当てはめて、統計解析を行っているというのが実情です。こうした部分については、残念ながら現実の変化に学問の進歩が追いついていない部分も多く、「ビッグデータのための統計学」という学問体系は、まだ確立されておりません。
そこで、本連載では、既存の統計手法を用いてビッグデータを分析する場合に、どのような優位性があり、どのような点に注意を払うべきか、それぞれ2つずつポイントをあげました。
全量データのサンプルデータより優っている点は以下の2つになります。
優位性①:ロングテールを扱う場合に、サンプルデータでは得られない知見が得られるという点で、大きな優位性がある。
優位性②:性別、年齢、居住地、嗜好など、非常に多くの要素による多重クロス集計を行うことができる。
一方で、全量データを分析する際の注意点も二つあります・
注意点①:サンプルデータは中心極限定理により正規分布を仮定されることが多いが、ビッグデータをそのまま扱うと「べき分布」になることが多く、分析には注意が必要。
注意点②:標本統計を前提とした統計的検定は、ビッグデータの場合あまり意味がないことに留意する必要がある。
これらのポイントについて次回以降詳細に説明していきます。
【当記事は、ギックス統計アドバイザーの中西規之が執筆しました。】
中西 規之(なかにし のりゆき)
ギックス統計アドバイザー。公益財団法人日本都市センター研究室