本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
どんな形式でもデータ分析を行うことに価値がある
前回まで分析データの受け渡し先と方法や保管場所など、分析データのファイルの管理について説明してきました。今回は、受け入れるデータ形式について説明します。
データ分析に最適な構造化データ。なるべく未編集の状態を受け入れよう
分析データとして最も多く使われているのが「構造化データ」と呼ばれるデータ形式です。Excelのような表形式になるデータのため、分析項目を指定しやすく、集計なども行いやすいです。また、データ提供元のデータが、リレーショナルデータベース(RDB)であることが多いため、データ提供元にとっても作成しやすいデータ形式になる事が多いです。
データ提供元の対応によっては、自社でデータ編集を行って、複数のファイルを1つのファイルに纏めて頂ける所もありますが、なるべく未編集の状態で受け入れるのがベストです。なぜなら、データ編集作業は、データ提供元にとって”本来の業務とは異なる作業”になる場合があるからです。その場合、慣れない手作業で編集方法を誤り、データを壊してしまう可能性があるからです。(参考:コード値は”0″もスペースも意味がある!Excelでデータ編集を行う場合は注意が必要)
親切心から分析データの編集をやってくれるデータ提供元もいらっしゃいますので、分析データの提供要求を行う際は、未編集の状態で頂けるように依頼する必要があります。
データ分析に不向きな非構造化データ。とりあえず受けてみよう
分析データとして「構造化データ」が最適ですが、データ提供元のシステムなどの理由によって、「非構造化データ」になる場合があります。
XMLファイルやJsonファイルなどの場合は、登録形式が統一されているため、項目データとして抽出可能ですので、構造化データにデータ形式を変換することで、データ分析が行いやすくなります。しかし、それ以外のテキストファイルなどは、登録方式が統一されていないことがあり、その場合は項目データとして100%の精度で抽出することは困難です。この場合、データ提供者のデータの登録方法をヒヤリングし、できるだけ多くの情報を吸い出せるように努力する必要があります。
弘法筆を選ばず! どんな形式のデータであっても分析結果を出せるのがプロフェッショナル
データ分析を行っていないデータ提供元の場合、分析データを収集することは大変な作業になります。また、自社の会計システムなどを外部のシステム会社に委託している場合は、データ提供者を通して、システム会社にデータ抽出を依頼する必要があるため、データ提供者の負担は、非常に大きなものになります。
そのため、データ提供者の負担の負担を減らすためにも、どのようなデータ形式のデータでも受け入れる体制や技術力を付ける必要があります。そのため、データ提供者に対して、データ形式やデータ項目の登録形式を細かく指定するのは、良くありません。
データ分析者は、データ分析のプロフェッショナルであり、データ提供者は、その技術力・知見を信頼して貴重なデータを提供しています。この信頼を裏切らないように、データ提供者の最小の労力で、最大限の分析結果を出す必要があるのです。
データ受領時の”おもてなし”
- Lesson1:受け渡し先を用意する
- Lesson2:保管場所を用意する
- Lesson3:様々なデータ形式を受け入れる (本稿)
- Lesson4:データ作成をサポートする
- Lesson5:受領データの確認を行う