コード名称変換することによってBIツール、Excelでデータ分析を行いやすくする | データ分析のお作法
f t p h l
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
コード値は分析担当者には扱いにくい!分析、集計単位となるコード値は名称変換する
データベースに売上情報や会員情報が入っている場合、商品コード、性別コードなど実際の値ではなく、コード値で入っている事があります。これらのコード値は、英数字であることが多く、分析担当者にとっては内容が直感的でなく、扱いにくい存在です。これらのコード値は、名称変換することで圧倒的に扱いやすいものになります。
そもそもコード値なんて使わなければ良いのでは?
データベースの売上情報が登録されているテーブルには、商品コード、商品カテゴリコードなどが登録され、実際の商品名や商品カテゴリ名は登録されてなく、商品マスタテーブルや商品カテゴリマスタテーブルといったマスタテーブルに名称情報を別管理している多いです。これは、商品名の変化時の対応や、データベースの記憶容量の削減など、データベースを登録・管理する場合に最適な形を取っているからです。(詳しくは「マスタデータ、トランザクションデータとは」参照)
しかし、データ分析を行う場合、このように売上情報(トランザクション情報)とマスタ情報が分かれて管理されているのは、非常に非効率です。なぜなら何十種類とある商品コードや商品カテゴリコードを人が覚えるためには、非常に大変な労力が必要です。そのため、データ分析をコード値で行う場合は、大量のコード表から必要な情報を探し出す作業が必要になります。そのため、データ分析を行う場合、データの登録形式を「登録・管理」に適した形から「分析」に適した形に変える必要があります。
コード名称変換する
コード名称変換する方法は、難しい作業ではありません。データベースの場合、登録された売上情報などのトランザクションテーブルとマスターテーブルを、SQLのテーブル結合によって取得します。この取得結果をテキスト形式などに保存することで、ExcelやBIツールでインポートできます。また、Excelの場合、ベースとなる売上情報に「VLOOKUP」などのExcel関数によって、該当するコードから名称取得ができます。
これらの作業によって、ExcelやBIツールでフィルタリングやキー集計を行う場合、コード値ではなくコード名称から選択できるようになります。
コード名称変換してもコード値は残す
コード値から名称に変換できたら、分析対象のデータにはコード値の不要と思われるかも知れません。全く意味のないコード値の場合は、分析対象として不要になる場合もありますが、コード値は、桁数ごとに役割を持っている場合があります。例えば、バーコードのに記載されているJANコードの場合、前2~4桁が国コードとなっており、「49」は日本、「50」がイギリスなどになっています。このようにコード値から国などを識別できる場合は、コード値も重要な分析対象の情報になります。
連載/関連記事リスト:データ分析のお作法
f t p h l