データクレンジングは分析前に「必須」の作業 | 第1回 データクレンジング手法
f t p h l
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
世界中のありとあらゆる情報をデータクレンジングで繋げる
データクレンジングとは
データクレンジングについて、IT用語辞典の内容を引用します。
データベースに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行い、データの品質を高めること。具体的な手法はデータの種類により千差万別だが、一般的な例としては、全角文字と半角文字の違いや、空白文字や区切り記号の有無、人名の異体字の誤りや姓名の分割・併合、法人名の表記(株式会社と(株)の違いなど)、住所や電話番号の表記法などが対象となり、それぞれについて表記ルールを決めて修正・削除などを行なっていく。
出所:IT用語辞典
ここで示された通り、一般的にはデータクレンジングは、データベースに保存されたデータの補完を指しますが、弊社のデータクレンジングは、データベースにデータを登録する前の取込データの補完もデータクレンジングとしています。
あらゆるドキュメントを取り込みます
弊社のデータクレンジングは、取込データのクレンジングも行います。そのため、取込データの形式は選びません。CSVファイル、Excelファイル、ログファイルなど様々な形式のファイルをデータベースに取り込みます。テキストデータもXML、JSONなど様々なフォーマットに対応します。今まで複数のドキュメントで管理していたため、ドキュメント間のデータの関係性が見えませんでした。しかし、様々なドキュメントを1つのデータベースにまとめることで、今まで見えなかったデータの関係性が見つかり、新たな発見ができるようになります。
データ分析に最適な形にデータを整えます
取込んだデータは、データ分析を行う前に分析に最適な形にデータを整えます。例えば、数値情報は、数値として扱わないと四則演算や集計を行えません。取込んだデータの数値情報にカンマが混入したり、全角数値の場合は、数値として扱えません。これらのデータを本来あるべき形にデータクレンジングします。データクレンジングによって、様々な分析が行えるようになり、また、分析の精度やスピードが上がります。
Nullなどの扱いが難しい値を変換します
データベースの世界では、Nullとそれ以外の値で区別して検索されます。Nullが入っている項目に対して、「項目名≠’検索値’」としてもNullの入ったデータは検索できません。また、「項目名=Null」のようにNullが入っているデータをピンポイントで検索できません。データベースの検索では、Nullは、等号(=)、等号否定(≠)、不等号(<>≦≧)の対象になりません。Nullの入ったデータを検索したい場合は「項目名 is Null」のような特殊な検索方法が必要になります。(Nullについてはデータ分析用語参照)
データベースでは、Nullは重要な値ですが、データ分析を行う場合、取り扱い方法に注意が必要な値であるため、空文字列(長さの持たない文字列)や”0″などに置き換えた方が、誰でも扱いやすいデータになります。このように、取り扱いにくい値を、取り扱いやすい値に変換します。
【連載記事リスト】
1. データクレンジングとは
2. データベースに取込める形にデータファイルを加工
3. データベースのデータ型を変える
4. 扱いやすい単位にデータ加工
5. 管理情報を追加してテーブルを統合
6. ミスを少なくするために登録形式を統一する
7. ETLとは~あらゆるデータファイルを理解してデータベース化する~
8. 取り扱いが難しい文字を変換して快適なデータ分析を楽にする
f t p h l