分析結果チェック ~集計結果を比較して異常データを探す~ | データ分析のお作法

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

他と違う集計結果には、集計方法のミス、データの異常値、深掘りポイントの3種類がある

データ分析では、BIツールなどのダッシュボードを使用して、店舗や商品、顧客を比較することが多いと思います。その中で他と違う集計結果が出た場合、そこには何らかの理由があります。今回は、他と違う集計結果に潜んでいる集計方法のミス、データの異常値について、ご紹介したいと思います。

他と違う集計結果が集計方法のミスとなる場合

以前、「データ結合後の件数から結合ミスを推測する」でもご紹介しましたが、複数の情報をデータ結合する時に使用する結合キーの指定方法を誤った場合、データが重複する場合があります。
例えば、POSシステムの売上明細情報と商品マスタ情報を商品コードだけでデータ結合していたとします。しかし、この商品コードを”使いまわし”で使用していた場合、結合キーとして商品コードと販売開始日、販売終了日を使用しなくてはいけません。そのため、商品コードだけでデータ結合を行っていた場合、”使いまわし”されている商品コードの商品売上だけがデータ重複によって、他の商品売上に比べ大きくなります。data_join4
この様なデータの結合ミスの他に、同じデータを複数回取込んでしまうなどのオペレーションミスによって、データ重複が発生することがあります。そのため、集計元の情頬の中の一意となるデータ項目を確認して、正しく登録されてるかの確認が必要です。

他と違う集計結果がデータの異常値なる場合

分析対象のデータの中には、他の情報と扱いが異なる情報が存在し、分けてデータ分析を行わないとデータの異常値となる場合があります。
例えば、カタログ通販の売上データ分析を行う場合、自社の無料月間カタログが、売上情報の中に書籍カテゴリの売上として含まれていたとします。この無料月間カタログの存在を知らず、データ分析を行った場合、無料月間カタログを配送した日の書籍カテゴリの売上数が、他の日の書籍カテゴリの売上数に比べて大きくなります。この様なデータの異常値は、データ分析の対象データから除外する必要があります。
参考:ソーシャルゲーム分析のブースト施策の扱い~分析対象から除外すべき情報~

他と違う集計結果が深掘りポイントとなる場合

上記のような集計方法のミス、データの異常値の確認を行い、問題がなかった「他とは違う集計結果」は、店舗や商品、顧客などの特徴となり、データ分析の深掘りポイントとなります。この深掘りポイントを分析していくことで新しい発見に繋げることができます。データ分析に慣れてきた分析者に多いことですが、「他と違う集計結果 = 深掘りポイント」と思い込んでしまいやすいですが、集計方法にミスはないか? データの異常値は無いか? を確認してから、深掘りポイントに対して分析を進める必要があります。

連載/関連記事リスト:データ分析のお作法
SERVICE