本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
直感的な理解の難しい「非集計」について解説
Tableauでは、「集計」と「非集計」という異なった数値データの取り扱い方が存在します。「集計」とは、複数のデータを合計や平均といった値に計算を行った後の状態のものです。一方「非集計」とは、これらの計算を行わずに個々のデータそのままで扱われた状態を指します。本稿では「集計」と「非集計」について、具体的なグラフを用いて解説致します。
集計(合計)で表したグラフ
こちらのグラフは列に関東地方の1都6県を、行に売上金額を設定したグラフです。売上金額を集計値(合計)として表示した場合は、合計売上金額が表示されます。これはつまり、同一都道府県の情報を持ったレコードを全て足し合わせた値ということです。棒の高さが都県ごとの総売上金額を表現していますので、直感的に理解のし易いグラフではないでしょうか。
非集計で表したグラフ
集計(合計)ですと、特に設定を行わない場合には自動で棒グラフが作成されました。一方、非集計の場合は自動で「ガント棒」として表現されます。
集計(合計)の場合は、計算が行われたうえで合計売上金額という一つの値が算出されています。その値をグラフとして表現していますので、1つの値として棒グラフを用いることは適切です。しかし、非集計の場合は合計等の計算を行っていませんので、値が一つに定まっていません。レコードの数だけ値が存在しますので、それら一つひとつがガント棒として表現されています。
つまり、ガント棒が集まっている場合、その金額帯のレコードが多いことを示します。グラフを眺めると、どの都県も低金額帯に決済が集中しています。とりわけ、栃木(ピンク)はより低価格帯に偏りがありそうです。このようにデータを「非集計」で扱ったグラフは、直感で理解しづらく用途も思い付きづらいものとなっていますが、特徴を把握することで有効に活用出来ます。筆者は例えばフィルター条件として用いています。
非集計の活用方法:フィルターで一定値以下のレコードを除外
売上金額が桁違いに大きいなど、異常値と思しきレコードについては除外をして集計を行いたい場面を想定します。この場合、集計された値をフィルタに設定しますと、条件は合計値や平均値に対して適応されます。これでは意図した絞り込みがなされません。
この問題の解決策として「非集計」が挙げられます。データを「非集計」として扱い、個々のデータに対してフィルター条件に当てはまるか判定を行うことで、異常値と判断する値以上のレコードを除外し、その後で集計を行うことが可能になります。具体的な操作方法としては、フィルター条件として設定したい売上金額を右クリックし、「ディメンション」にチェックを入れるのみです。
これにより集計していない値、すなわちデータソースのレコード一行ごとにフィルタの評価が行われます。この操作により、それぞれの決済に対して評価を行うよう変更がなされます。以下の例では、\300,000を上限として設定しています。
本稿では「集計」と「非集計」、特に「非集計」の扱いについて解説致しました。「非集計」については直感的な理解が難しいかと思いますが、使いこなすことでより自由にデータを集計することが出来ます。お手元のデータで実際に設定を行って、どのような処理が行われるか確かめてみて下さい。