「全体の平均」と「平均の平均」は違う|クロス集計の落とし穴

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

「平均」を「平均」するときは”自分が何をやってるか”を忘れないように!

記事「ダブりのある集合の計算には気を付ける|クロス集計の落とし穴」では、クロス集計で気を付けなければならない店として、ダブりのある集合の計算について書きました。
今回は、「全体の平均」と「平均の平均」は違う、について書いていきたいと思います。

「平均の平均」を計算しても「全体の平均」にはならない

POSデータ分析の結果を例にして話を進めましょう。
cross1-1
この表は、店舗別性別の1回当たり平均決済額のテーブルです。この表から、男女別ではなく、「男女を合わせた全体」で店舗別の1回当たり平均決済額の列を作成したいとします。ここで、男性の平均決済額と女性の平均決済額の平均から全体の平均決済額を求めてしまいがちですが、これは誤りです。
cross1-2
「1回当たり平均決済額」をどのようにして算出しているかを考えれば、これが誤りであることがわかります。
(1回当たり平均決済額)=(総決済額)/(延べ来店人数)
つまり、男女全体の「1回当たり平均決済額」を求める場合には次の計算が必要になります。
(男女全体の1回当たり平均決済額)={(男性の総決済額)+(女性の総決済額)}/{(男性の延べ来店人数)+(女性の延べ来店人数)}
ですから、全体の「1回当たり平均決済額」を求めるためには、男女それぞれの「総決済額」と「延べ来店人数」がわからないと計算できないことになります。
cross1-3
この表をもとに、男女全体の1回当たり平均決済額を計算すると下のようになります。
cross1-4
上掲の結果とは異なる結果になりました。
こちらが正しい全体の1回当たり平均決済額になります。
このように、「平均の平均」を求めても、「全体の平均」とは一致しないので注意が必要です。

「平均の平均」が「全体の平均」が一致することもある

もう一度、上掲の「平均の平均」から求めた値と「全体の平均」から求めた値を見比べてください。C店については、「平均の平均」の値と「全体の平均」の値が一致しています。これは、男性と女性の延べ来店人数が全く同じであるためです。このように母集団同士の母数が同じ場合においては、「平均の平均」と「全体の平均」が一致します。
このようなケースはあるものの、基本的には全体の平均を求める際には、平均の「分子」となる値および「分母」となる値の合計値を算出してから合計値同士を割り算することにより全体の平均を求めます。よくよく考えると当たり前のことですが、Excelの表などを扱っていると気づかないうちに「平均の平均」から「全体の平均」を求めてしまいがちです。気を付けましょう。

【連載:クロス集計の落とし穴】
  1. ダブりのある集合の計算には気を付ける
  2. 「全体の平均」と「平均の平均」は違う (本編)
  3. 「一人当たり」はどんな「一人」であるかに要注意
  4. 具体例:「足せる平均値」と「足せない平均値」
【連載、検証:エクセルでどこまでビックデータ分析ができるのか?】
  1. エクセルは”かなり”使える
  2. エクセルで大量データを回すためのコツ
  3. ファイルサイズを押さえるコツ
SERVICE