本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
分析データを提供する場合は、データファイルの項目一覧を渡すことで仕事をスムーズにできる
データ分析を依頼する場合、依頼者と分析者が、お互いに気持ち良く仕事をするためには、”データ提供時のマナー”が必要です。それは、決して難しい事ではありません。一手間で、何度もメールや電話でやり取りすることが減り、お互いの認識の差異が無くなり、仕事をスムーズに行えるようになるのです。今回は、データファイルの”お品書き”について説明します。
データファイルの”お品書き”とは
みなさんは、飲食店に入った時、”お品書き”から自分が食べたいものを選ぶと思います。データファイルでも同様で、データファイルの中の何十個という項目の中から、データ分析に必要な情報を選ぶ必要があります。この時、データファイルの”お品書き”がないとデータ分析者は、何を選んでよいか分かりません。
これからデータ分析者の視点で”お品書き”が、重要な事を説明したうえで、簡単な”お品書き”の書き方について触れたいと思います。
データ分析者は何でも知っているわけではない
始めて分析用のデータファイルを受けたとき、分析者は、データファイルの中に何が入っているか内容の確認をします。ファイル名だけでもデータファイルの内容は「判断」できますが、データファイルの各項目については「予想」までしかできない場合があります。
例えば、スーパーのPOSデータをCSVファイルでデータ分析を依頼されたとき、会計管理番号、レジ番号、商品名、個数、金額などの一般的な項目ついては、数行のデータを見れば「判断」できます。しかし、割引金額、会員番号などの情報は、店舗独自の項目であるため、「予想」までしかできず、データ分析依頼者に問い合わせることがあります。
“お品書き”を付けることで、データファイルは100%使える
上記のように、データファイル内の項目が分からないと、データファイルの内容だけで「判断」できる一般的な情報だけでデータ分析を行うしかありません。そうすると「特徴」に対してデータ分析の深掘りができません。
例えば、あるスーパーでは、日替わりで商品割引を行い、POSデータに特売区分として記録していたとします。しかし、データファイルを受取ったときに”お品書き”が無ければ、特売区分の存在に気付かず、特売品と店舗売上の相関分析が行えなくなってしまいます。非常に勿体無い事です。
“お品書き”は簡単な物で構わない
“お品書き”は、設計書などの決まったドキュメントに細かく記載する必要はありません。一番、重要なのは「相手に伝わること」です。
最も簡単なものは、CSVデータやExcelの先頭行に「項目タイトル」として、分析者が理解できる項目名を入れることです。項目名だけでもデータ内容は判断が付きますし、もし、気になる項目があれば、ピンポイントで質問しますので、答える依頼者の負担は、”お品書き”を渡さない時に比べ、だいぶ少ないはずです。
コード一覧、区分一覧も忘れずに
今までの説明で”お品書き”は、大変重要なものだと理解していただけたと思います。しかし、項目名だけでは、コードや区分の内容までは分かりません。
例えば、銀行番号や銀行支店番号などは、インターネットを検索すれば番号から銀行名を判断できます。しかし、企業で独自に設定している店舗番号、商品番号などの「マスタ情報」と言われる情報は、分析者がその企業の人間で無い場合、知る手段がありません。そのため、外部にデータ分析を依頼する場合は、提供するデータファイルに付随する「マスタ情報」も一緒に提供するようにしましょう。
【連載記事:データ提供時のマナー】
Lesson1:お品書きを付ける (本稿)
Lesson2:データファイルのレイアウトは変えない
Lesson3:機密情報/個人情報を渡す場合のお約束
Lesson4:データファイルのサイズと形式と転送方法に注意する