1日は24時間ではない!? 分析には分析用の日時を持たせる | データ分析のお作法
f t p h l
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
何を分析するかを考えて日時情報を加工する
データ分析で対象となるデータは、売上情報やWebのアクセスログ、人流データなどのトランザクションデータが中心となることが多いです。これらのデータには、日時情報が必ずといっていいほど入っています。そして、この日時情報を使って何を分析するかを考え、適切な形に加工する必要があります。
営業時間を考えて1日24時間以上にする
深夜営業を行っている飲食店などでは、1日の売上げが、データ上では2日に分かれる場合があります。この状態の日時情報で集計を行った場合、0時以降の売上げが翌日分として集計されるため、正しい分析が行えません。
このような場合は、1日24時間以上にして0時以降の売上げを前日に寄せる必要はあります。例えば営業時間が18:00~翌日2:00までの飲食店の場合、「9/2 1:00」の会計日は、「9/1 25:00」に日時情報を加工します。これで正しい1日の売上げ集計が行えます。
また、データベースのテーブルで日時情報を日時型で保持している場合、24時間以上時間を登録できません。そのため、24時間以上のデータを登録する場合は、文字列型でテーブルに登録してください。
集計期間、集計単位を考えて最適な単位に日時情報を加工する
データ分析では、日付ごとの集計を行うことが多いですが、1年分の売上げ遷移をグラフ化するときには、単位が細かすぎます。また、曜日ごとの売上げを出したいときには、日時情報を曜日情報に加工する必要があります。そのため、下記のように日時情報を集計期間や集計単位に合わせて加工する必要があります。
- 1年間の売上げ遷移 → 月単位に加工
- 曜日ごとの集計 → 曜日に加工
- 週ごとの売上げ比較 → 年間の週番号に加工
- レジの混雑具合をグラフ化 → 15分単位に加工
頻繁に利用する集計単位は項目に持たせる
このように分析には、日付情報を分析に適した形に加工することが必要です。この分析用の日時情報は、BIツールやSQLなどの集計処理内で加工しても良いのですが、頻繁に使用する情報については、分析用の日時情報を項目として持たせた方が良いです。
集計用の項目で持たせることで、毎回、日時情報を加工する手間が少なくなり、作業のミスもなくなります。また、テーブルの項目として持たせることで、SQLでの処理速度が上がる場合もあります。
連載/関連記事リスト:データ分析のお作法
f t p h l