本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
常に「母集団」を意識して数字を扱うことが失敗を防ぐ
以前、『「全体の平均」と「平均の平均」は違う|クロス集計の落とし穴』という記事で、平均の平均を求めても全体の平均にはならないということを書きました。
このように平均値の取り扱いには注意が必要なのですが、その例をもう一つここで書いていきたいと思います。
一人当たりカテゴリ利用額の例
記事『「一人当たり」はどんな「一人」であるかに要注意|クロス集計の落とし穴」』では、クレジットカードの利用履歴分析の例を示しました。
「一人当たりカテゴリ利用額(一人当たりであるカテゴリでいくらの利用があったか)」という値の「一人」というのはさまざまな解釈ができるという話でした。
具体的には、
- 全会員(カードを保有している会員)
- 有効会員(会員のうち、利用可能なカードを保有している会員。「利用可能」とは、紛失や引き落としエラーなどによりカードが使えない状況でない、という意味)
- アクティブ会員(期間内に1度以上のカード利用があった会員)
- カテゴリアクティブ会員(期間内に当該カテゴリで1度以上のカード利用があった会員)
があるということを書きました。
ここで、「アクティブ会員一人当たりのカテゴリ利用額」と「カテゴリアクティブ会員の一人当たりカテゴリ利用額」について考えてみます。 例えば、「百貨店」「飲食店」「トラベル」というカテゴリにおける1年間の利用実績が下記のようになっているとします。
この表から、「アクティブ会員一人当たりのカテゴリ利用額」と「カテゴリアクティブ会員の一人当たりカテゴリ利用額」を求めると次のようになります。
さて、ここで、「百貨店」「飲食店」「トラベル」という3つのカテゴリを合わせた「一人当たりのカテゴリ利用額」の合計額を算出したくなったとき、この表から計算できるでしょうか?
答えは、「アクティブ会員一人当たりのカテゴリ利用額」の場合は計算できて、「カテゴリアクティブ会員の一人当たりカテゴリ利用額」の場合は計算できない、が正解です。
なぜこのように違ってくるかは、単純明快で、「母数が同じか、異なっているか」に依存しています。
「アクティブ会員一人当たりのカテゴリ利用額」の場合の「一人当たり」は、カードを(どのカテゴリかは問わず)一度以上利用したことのある会員という意味なので、どのカテゴリでも同じ母数(この具体例の場合は173,000人)です。
一方で、「カテゴリアクティブ会員の一人当たりカテゴリ利用額」の場合は、カテゴリごとにアクティブな(当該カテゴリを利用したことのある)会員数は異なっています。
すなわち、母数が違うわけです。
母数が同じもの同士は平均値でも加算できるし、「平均の平均」で「全体の平均」も計算できる
平均値の足し算は母数が同じ場合のみ可能です。
母数が違っているもの同士を足しても意味のない値が得られるだけです。
これは、『「全体の平均」と「平均の平均」は違う|クロス集計の落とし穴』の中でも少し触れましたが、「平均」の「平均」についても同じことが言えます。
先のクレジットカードのカテゴリの具体例では、「アクティブ会員一人当たりのカテゴリ利用額」については「平均の平均」を計算することによって「1カテゴリあたりの利用額」を求めることができます。
このように、平均値同士を計算する場合には、常に母数に注意を払う必要があります。
【連載:クロス集計の落とし穴】
- ダブりのある集合の計算には気を付ける
- 「全体の平均」と「平均の平均」は違う
- 「一人当たり」はどんな「一人」であるかに要注意
- 具体例:「足せる平均値」と「足せない平均値」(本編)