第1回 マーケットバスケット分析とは?|POSデータでマーケットバスケット分析の実践 with R

  • f
  • t
  • p
  • h
  • l
POS_market_basket_analysis_Title

POSデータでマーケットバスケット分析をした結果を公開していきます

本連載では、4回にわたり、ある書店の実際のPOSデータをもとに、マーケットバスケット分析の事例をRで実装しながら紹介します。マーケットバスケット分析について紹介した本やWebサイトは多くありますが、実データによる分析事例は、POSデータの性格上、あまり紹介がなされておらず、本連載はその貴重な事例となりますので、是非最後までお読みいただければ幸いです。

1回目の今回は、まず、マーケットバスケット分析とは何か?について説明します。

マーケットバスケット分析とは

マーケットバスケット分析は、POS(Point Of Sales)データの分析を行うときに使われる手法で、一度の購買(レシート)で、どの商品とどの商品を買ったのかという(あるいは商品カテゴリ同士)、「組み合わせ」を分析する手法です。

ご存じかもしれませんが、マーケットバスケット分析の非常に有名なエピソードに「おむつとビール」というものがあります。これは、POSデータをデータマイニング(=マーケットバスケット分析)して得られた結果が、「おむつを買うお客さんはビールも買う傾向にある」というものでした。この解釈として、「子育て年代の男性が買い物をするときに、自分へのご褒美に買うもの」だという仮説が言われていました。このエピソードは、実際に外国のある小売業の会社が行った分析結果といわれていますが、実際にこの結果を利用して売り場を改装したりしたようなことはなかったとか、エピソード自体が都市伝説などとも言われています。

なお、マーケットバスケット分析は、典型的なデータ「マイニング」の手法であり、仮説検証というよりは、探索的な分析に使われることが多いです。

アプリオリアルゴリズム

マーケットバスケット分析では、商品(カテゴリ)間で頻繁に同時購買が起こっている、「組み合わせ」を抽出することを目的としており、この「組み合わせ」のことを「相関ルール」(association rules)といいます。なお、同じ「相関」という言葉で訳されていますが、相関係数などで用いる、”correlation”とは異なる概念になりますので、注意が必要です。ただし、本稿では、一般的な訳語として流通している「相関ルール」という言葉を、そのまま用いることとします。

例えば、商品がA,B,Cの3つの場合を考えてみましょう。このとき、Aという商品を買っている人は、Bという商品も買っていることが「頻繁に」起こっていることが観察された場合には、これを、{A}→{B}と表記します。なお、「相関ルール」は、商品が1つ同士の組み合わせとは限らず、「AとBを買っている人は、Cも買う」ということが頻繁に起こっている場合も考えられ、これを、{A,B}→{C}と表記します。したがって、商品がA,B,Cの3種類の場合には、考えられる「相関ルール」の組み合わせとしては、{A}←→{B}、{B}←→{C}、{C}←→{A}、{A,B}←→{C}、{A,C}←→{B}、{B,C}←→{A}の12通りが考えられます。商品が3種類なら、この12種類の中から頻度の高い「相関ルール」を抽出すればいいですが、商品が10種類の場合、対象となる相関ルールは約5万7千個になり、さらに、一般的な小売業で扱っているような商品の種類であれば、相関ルールの組み合わせは、分析が到底不可能な量になってしまいます。

この問題を解決したのが、IBMアルマデン研究所のラケシュ・アグラワル(Rakesh Agrawal)らが1994年に考案した、アプリオリアルゴリズムです。アプリオリアルゴリズムは、「Xが多頻度アイテム集合であれば、その部分集合Yは多頻度アイテム集合である」ということの対偶をとり、「Yが多頻度アイテム集合でなければ、Yを含むような集合Xも多頻度アイテム集合でない」ということを利用して、分析対象となる商品の相関ルールを大幅に絞り込むアルゴリズムです(情報処理学会編(2006)『データマイニングの基礎』オーム社)。

先ほどの商品A,B,Cの集合であれば、商品Cが分析対象となる頻度の「しきい値」より出現頻度が小さいとき、Cを含む相関ルールは、アプリオリアルゴリズムに従えば全て分析対象外となることから、12通りの相関ルールうち、{A}←→{B}の2通りだけを分析すればよいことになります。もちろん、商品の種類が増えれば増えるほど、アプリオリアルゴリズムの有効性も増すことは、言うまでもありません。

 

今回は、マーケットバスケット分析の概要とアプリオリアルゴリズムについて紹介しました。次回以降は、マーケットバスケット分析の評価指標、Rでの実装、実際のPOSデータを用いた分析について説明していきます。

第1回 マーケットバスケット分析とは?(今回)
第2回 マーケットバスケット分析の評価指標
第3回 マーケットバスケット分析のRでの実装
第4回 分析結果と考えられる「打ち手」

【当記事は、ギックス統計アドバイザーの中西規之が執筆しました。】

中西 規之(なかにし のりゆき)

ギックス統計アドバイザー。公益財団法人日本都市センター研究室主任研究員、フェリス女学院大学国際交流学部非常勤講師(社会統計学)などを歴任。東京工業大学大学院社会理工学研究科社会工学専攻修士課程修了。最近の関心は、市民、民間、行政の3者が「Win-Win-Win」になるような、公共サービスにおけるビッグデータ・オープンデータの活用のあり方について。

  • f
  • t
  • p
  • h
  • l