本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
目次
人は”思い込み”を捨てることができない。だから、データ分析でミスをする
データ分析の作業というのは、DBやBIツールによって大半の”処理”は行ったとしても、これらの道具を人が”判断”している利用しています。人が”判断”する工程がある以上、そこからミスをなくすことは不可能です。なぜなら、人は”思い込み”を捨てることができないからです。これから、”思い込み”から発生するデータ分析の失敗について記載したいと思います。
「分析方法は正しい」という思い込み
データ分析では、DBに対して特殊な命令文(SQLなど)や高機能なBIツールを使用するなど、非常に高度な作業を求められる場合があります。そして、アウトプットとして、分析結果データや各種グラフなどが出力される事があります。これらの分析方法やアウトプットが正しいか?をチェックする必要があるのですが、ついつい、「長年の経験」や「分析の焦り」、「面倒な作業から逃げたいと思う心」などから「きっと大丈夫だろう」と思い込んでしまい、深くチェックをしないケースが度々あります。
「分析データは正しい」という思い込み
データ分析の対象となるデータ。これをクライアントなどの第三者から預かることは多いです。この分析データの中にどのような内容が入っているかを確認するためには、預かったタイミングで一緒に受け取る「分析データの項目説明」、データ中のコメントやタイトル行などでデータの内容を把握します。しかし、第三者から受取る以上、そこで認識のズレは発生する可能性があります。
例えば、分析データとしてCSVファイルを預かったとします。このCSVファイルにはタイトル行があり、このタイトル行からデータ項目を判断することができたとします。しかし、データ項目名は、人が付ける名前のため、企業や個人の常識が含まれる場合があります。具体的には、売上データに「クレカフラグ」というものがあったとします。分析者は「クレカフラグだから、クレジットカードで支払った場合、”1″が登録されている」と一般的な”思い込み”をしてしまいます。しかし、クライアントの企業では「クレカフラグに、”1”は提携カード、”2”は普通のカードを登録する」という運用をしていた場合、分析者とクライアントの認識の違いが発生します。
“思い込み”を捨てるのは大変。だから分析チームでクロスチェックをする必要がある
人は、”思い込み”に支配される生き物です。この”思い込み”は、経験が多ければ多いほど粘り強く、完全に捨てることは不可能です。そのため、データ分析の各工程の切れ目で分析チーム内のメンバーにクロスチェックを行ってもらう必要があるのです。面倒な作業になりますが、データ分析の”質の向上”には欠かせない工程になります。