データ整理力UPの”3つのコツ”|データの集め方と整理の仕方(10)
- TAG : graffe | データ収集とデータ整理
- POSTED : 2015.06.27 09:09
f t p h l
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
整理のコツを覚えて、データ整理力を高めよう
データの整理のお作法は、前回延べた通りです。(もっと詳しく知りたい方は、連載記事:「ミスプリベンション」をご参照ください)今回は、ガリガリとしたデータ分析用のデータ整理方法だけではなく、もう少し広い意味でのデータの整理の仕方(例えば、市場規模調査や競合調査結果の取り纏めの場合など)を3つのポイントに沿ってお話しします。
ポイント1:構造化
集めたデータは、「意味のある区分」で分類した行に記入・格納していきます。(時系列、テーマ別など。情報ソース別などは意味のない分類です)ここで重要なのは、ロジカルシンキングの考え方の一つMECEさをなるべく保つことです。(MECEに関する詳しい話は、数多くの書籍が出ておりますので、そちらをご参照ください)データを取りまとめていると、よくこんな質問も受けます。
「分類を大分類、中分類、小分類と分けていくと、分類名が足りなくなることがあります」
正直、何が大か中かはデータ収集の段階で決められないことも多いですので、そういう場合には、「分類1、分類2、・・・」とだけ分けて、すべてのデータ行をしっかり分類だけしておきましょう。
ポイント2:一覧化
様々なデータを集め、データテーブルを分けていくと、どのデータテーブルが何のデータだったのか、どこから入手したのかが分からなくなることがあります。それぞれのデータテーブル上に、入手元や日時を書きこんでいくことは、ミスプリベンションの観点からもポイント1構造化の観点からもお勧めできない方法です。このような場合には、別途目次シートを作成することで、データの一覧性を確保します。目次シートには、各データテーブルの、データ取得日、出所(URL、提供者名)、どんな分析に使ったのかなどが記入してあれば十分です。
ポイント3:ユニーク化
個々の情報に一つの統一したルールで番号や名称を振っておくだけで、自分だけでなく他人でも探し出すことが簡単になります。具体的に言えば、日本語でデータ名称を振ると、なんらかの機会にデータソートを行うと、あいうえお順で出てきてしまい、意図した順番で見ることができないなどということがあります。このような事態を避けるためには名称の頭に00_や01_などと数字を振ることで、崩れることのない順番を確保することができます。またユニークな番号をしっかり振ることで、会話の中や電話、メールでのやり取りであっても不必要な誤解がなくて済むというメリットもあります。
おわりに
さて、今回で、連載:データの集め方と整理の仕方は終了です。ビッグデータに限らず、皆様が日々業務を行っていく上でもよくありそうなシチュエーションに置き換えて、なるべく簡単にお話ししました。参考になりましたら幸いです。
連載/関連記事リスト:データ収集とデータ整理
f t p h l