POSデータのクロス集計で「売れ方」の理解に用いる:"リフト値"を活用する(2)

  • f
  • t
  • p
  • h
  • l
title_lift

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

クロス集計した値を「相対比較」することで”全体との差”を理解する

記事「“リフト値”を活用する(1)」において、バスケット分析におけるリフト値という考え方は他の分析でも活用できると述べました。この記事では、「老齢人口の割合」という統計データを具体例として挙げましたが、この考え方はあらゆる分析において活用できるものです。
今回は、バスケット分析以外のPOSデータ分析における”リフト値”の考え方の活用法について見ていきたいと思います。

POSデータのクロス集計での活用

クロス集計は分析の基本ともいえるものですが、基本であるからこそ重要であるともいえます。これはPOSデータの分析においてもあてはまることであり、POSデータもまずはクロス集計でしっかりと現状を把握していくことが重要になります。ここでは、このクロス集計における”リフト値”の考え方の活用について見ていきます。
クロス集計でのリフト値についての具体例として、「コンビニチェーンのドーナツの購買率」のクロス集計について考えてみます。あるコンビニチェーンでは、全国の店舗でドーナツを販売しており、その購買率(顧客のうち何%がドーナツを購入したか)を店舗別時間帯別に集計したところ、次のテーブルに示す結果が得られたとします。

あるエリア担当者は、自分の担当しているA店からD店について、深夜早朝時間帯(0時~6時)のドーナツの在庫をどれくらいにするかで判断するため、上述のテーブルから「深夜早朝(0~6時)」のA店からD店の購買率の値を抜き出してみました。

これだけを見ると、B店の値が高く、A店の値が低いです。しかし、この値だけで、「B店の購買率が高い」「A店の購買率が低い」と判断してよいでしょうか?
この4店舗だけでなく、全店舗の値や他の時間帯の値と比較した方がよいでしょう。こんなときに役に立つのが”リフト値”の考え方です。
この4つの「各店舗の深夜早朝の購買率」の値について、「全店舗に対する”リフト値”」と「終日(全時間帯)に対するリフト値」を計算してみます。計算方法は、「リフト値とは|データ分析用語を解説」で説明した

「リフト値」は、「条件Xのときの事象Yの割合」を「全体での事象Yの割合」で割ったもの

に当てはめて考えると、
(全店舗に対する「各店舗の購買率」の”リフト値”)=(各店舗の購買率)/(全店舗の購買率)
(終日に対する「深夜早朝の購買率」の”リフト値”)=(深夜早朝の購買率)/(終日の購買率)
となります。これらの式にしたがって求めた”リフト値”は次のようになります。

“リフト値”があることにより、「低いと思っていたA店の購買率は、全店舗の中で比べると平均的な値である」、「C店の購買率は、他の店舗と比較すると高いが、この店舗での他の時間帯の購買率と比較すると低めの値である」といったことがわかるようになりました。このように”リフト値”を求めることにより、個々の値が「全体」と比べてどうであるかがわかるようになります。

“リフト値”は個々の値を全体と比較するための指標

上述のクロス集計の例からわかる通り、“リフト値”は個々の値を全体と比較するための指標であると言えます。
そもそものバスケット分析でのリフト値についても、ある商品yを購入する確率について「商品xを買った場合の確率」を「全体の確率」と比較していると考えられます。
個々の値を全体と比較することは、クロス集計から示唆・気づきを得る際にとても重要です。今回の例のようにシンプルなテーブルの場合は、わざわざ”リフト値”を計算しなくても、テーブルを見ただけで個々の値を全体と比較することは容易でしょうが、実際の分析ではより複雑なテーブルになるでしょう。そんなときにこの”リフト値”の考え方はとても有用です。
ここまでは「”リフト値”は個々の値を全体と比較するための指標である」という考え方を「割合」について見てきましたが、次回は「平均値」での活用について考えてみます。

【リフト値関連記事】
  1. リフト値とは|データ分析用語を解説
  2. 統計データでリフト値を用いることで「相対値」が分かる:”リフト値”を活用する(1)
  3. POSデータのクロス集計で「売れ方」の理解に用いる:”リフト値”を活用する(2) (本編)
  4. 平均値同士の「相対性」を把握する:”リフト値”を活用する(3)
  • f
  • t
  • p
  • h
  • l