clock2014.12.26 08:45
SERVICE
home

第2回 マーケットバスケット分析の評価指標|POSデータでマーケットバスケット分析の実践 with R

AUTHOR :   ギックス

POSデータでマーケットバスケット分析をした結果を公開していきます

本連載では、4回にわたり、ある書店の実際のPOSデータをもとに、マーケットバスケット分析の事例をRで実装しながら紹介します。マーケットバスケット分析について紹介した本やWebサイトは多くありますが、実データによる分析事例は、POSデータの性格上、あまり紹介がなされておらず、本連載はその貴重な事例となりますので、是非最後までお読みいただければ幸いです。

第2回目の今回は、マーケットバスケット分析の評価指標について、説明します。

マーケットバスケット分析の評価指標

マーケットバスケット分析における相関ルールを評価する指標として、support(支持度)、confidence(確信度)、lift(リフト)の3つがあります。

support(支持度)は、相関ルールが全トランザクションデータでどの程度出現するかの割合で、下の式で表されます(情報処理学会編(2006)『データマイニングの基礎』オーム社)。

apriori1

confidence(確信度)は、条件部(X)が起こった時に結論部(Y)が起こる割合で、下の式で表されます(情報処理学会編(2006)『データマイニングの基礎』オーム社)。

apriori2

lift(リフト)は、confidence(確信度)、すなわち、「条件部(X)が起こった時に結論部(Y)が起こる割合」を、「結論部(Y)が起こる割合全体」で割ったもので、下の式で表されます。

apriori3

3つの指標はどれも同じくらい重要であり、そのうち1つが最も重要というものではありません。マーケットバスケット分析の一般的な「使い方」は、3つの指標がどれも高い組み合わせ{A}→{B}があった場合に、Aを買っていてBを買っていない人に、Bをレコメンドするというものです。その場合、support(支持度)の高い組み合わせほど全体的な頻度が高い組み合わせであり、confidence(確信度)の高い組み合わせほど併売の度合いが高い組み合わせであり、lift(リフト)が高い組み合わせほど、Aを買っていることによるBの購買確率が向上することになります。

逆に、support(支持度)が低ければ、そもそもその組み合わせ自体が非常に稀なものであり、レコメンドすること自体、RoIが合わないということになります。また、confidence(確信度)が低ければ、レコメンドの「打率」が低くなりますし、lift(リフト)が低ければ、そもそもXを買った人にYをレコメンドする意味がなくなってしまいます。

以上のように、リコメンドする組み合わせの優先順位には、一意の正解があるわけではありませんが、多く行われる方法としては、support(支持度)とconfidence(確信度)に、一定の「しきい値」を設けて組み合わせの「足切り」をした上で、lift(リフト)順にソートを行い、上位の組み合わせについて、併売を促す施策を行うということがあります。

なお、マーケットバスケット分析の「組み合わせ」は{A}→{B}という形で標記されますが、リフト値ベースでみた場合、定義から、必ず「{A}→{B}のリフト」=「{B}→{A}のリフト」になります。したがって、マーケットバスケット分析の出力において、組み合わせリフト値でソートして出力することがありますが、その場合には、両者が並んで表記されるのはそのためです。片方だけが表示される場合は、supportとconfidenceの他の指標が一定値以下で、表示によって「足切り」されているか、{A,B}→{C}といったように、3つ以上のアイテムによるパターンの場合のどちらかになります。

今回はマーケットバスケット分析の評価指標について学び準備が整いましたので、次回、いよいよマーケットバスケット分析を実践します。

第1回 マーケットバスケット分析とは?
第2回 マーケットバスケット分析の評価指標(今回)
第3回 マーケットバスケット分析のRでの実装
第4回 分析結果と考えられる「打ち手」

【当記事は、ギックス統計アドバイザーの中西規之が執筆しました。】

nakanishi

中西 規之(なかにし のりゆき)

ギックス統計アドバイザー。公益財団法人日本都市センター研究室主任研究員、フェリス女学院大学国際交流学部非常勤講師(社会統計学)などを歴任。東京工業大学大学院社会理工学研究科社会工学専攻修士課程修了。最近の関心は、市民、民間、行政の3者が「Win-Win-Win」になるような、公共サービスにおけるビッグデータ・オープンデータの活用のあり方について。

 

SERVICE