全量データで多重クロス集計を行い、擬似相関を見破り、交互作用を発見|ビッグデータ分析の留意点③

  • f
  • t
  • p
  • h
  • l
eyecatch_bigdata_nakanishi

本日は、全量分析の優位性②にあたる、以下のポイントについて説明します。

優位性②:性別、年齢、居住地、嗜好など、非常に多くの要素による多重クロス集計を行うことができる。

購買行動や意識などを分析する時、性・年代別ごとのクロス集計を取るのは、基本中の基本かと思います。ただし、それはもしかしたら性・年代別の効果ではなく、居住地による効果かもしれません。居住地により、いわゆるF1・M1層やお年寄りの人口比率は異なっていますから、本来なら居住地による違いであったものが、「見かけ上」、性・年代別のクロス集計の結果に反映されてしまっている可能性がないとはいえません。こうした事象のことを、「疑似相関」といいます。これを確かめるためには、性・年代別に、居住地を加えた二重クロス分析を行う必要があります。居住地別に分けた、性・年代別のクロス集計を見れば、その効果が性・年代別なのか、居住地なのかが分かるというわけです。

また、二重クロス集計を行ったときに、特定の居住地においてのみ、性・年代別のクロス集計に大きな傾向の違いが発見できることもあります。こうした現象のことを「交互作用」といい、セグメンテーションを得るという意味では、大きな発見といえます。

さらに、上記の性・年代別、居住地の二重クロス分析の手法を応用して、これに嗜好を加えた三重クロス分析や、他の要素を加えた四重クロス分析といった形で、細分化した集計結果をみていくことにより、「疑似相関」の洗い出しや、「交互作用」の発見の精度は、格段に高まっていきます。

サンプル分析の空白セルは、全量分析では回避できる

しかしながら、サンプルデータを用いた分析では、サンプル数やクロス集計を行う変数の項目数にもよりますが、二重クロス集計以上のクロス集計を行うと、統計学的に意味がないクロス集計と言われている「空白セル」、すなわち、クロス集計表の中に「ゼロ」のセルが入るクロス集計になってしまい、なかなか意味のある集計を得ることができませんでした。また、三重クロス集計、四重クロス集計のように細分化した集計では、該当サンプルが数件しかないといったことが発生し、意味のないクロス集計になってしまうことがほとんどでした。

それに対して、ビッグデータの全量分析は、サンプル数が大きいので、空白セルが起きる可能性が著しく減ります。問題意識に応じて、二重クロス集計のみならず、三重クロス集計、四重クロス集計といった形で自由に分析できる点は、全量分析の大きな強みといえるでしょう。

 

【当記事は、ギックス統計アドバイザーの中西規之が執筆しました。】

中西 規之(なかにし のりゆき)

ギックス統計アドバイザー。公益財団法人日本都市センター研究室主任研究員、フェリス女学院大学国際交流学部非常勤講師(社会統計学)などを歴任。東京工業大学大学院社会理工学研究科社会工学専攻修士課程修了。最近の関心は、市民、民間、行政の3者が「Win-Win-Win」になるような、公共サービスにおけるビッグデータ・オープンデータの活用のあり方について。

  • f
  • t
  • p
  • h
  • l