「クロス集計」は最強の分析手法である
本日は、日経ビッグデータ2014年12月号の「習得すべき分析手法は5つでいい」をななめ斬ります。
記事概要
- 8社の事業部門のデータ活用についてインタビューをした結果、普段使っているデータ分析手法は5個以下であった。
- 実際に使っている手法は9種類。(以下に記載)
- ツールは商用ツールが中心で、「R」を使っている企業は少ない。
- 流通系の企業はSQLを使っているケースが多い。
データ活用に積極的な8社が重視する分析手法:
- クロス集計(8社)
- クラスタリング分析(7社)
- 回帰分析(4社)
- 決定木分析(4社)
- 相関分析(3社)
- RFM分析(3社)
- 因子分析(2社)
- アソシエーション分析(1社)
- 時系列分析(1社)
自社の経営状況を地図として表す、すなわち事業構造分析はクロス集計だけでも十分
記事でも触れてありましたが、8社中8社が使っている鉄板とも言われる分析がクロス集計です。と言うか、クロス集計を使わないでデータ分析を行なえと言われたらどんなデータサイエンティストもお手上げだと思います。自社の商品はどのような性別、年齢の方々に売れているのか?と言うことを知りたいとします。これを理解するには、性別×年代のクロス集計で見れば一発です。「ああ、自社は30代の男性で4割の売上を占めているのか。」などが簡単に把握できます。顧客や事業をより詳細なカタマリにして見ていくには、クロス集計は避けられません。
※見た目がクロス型のマトリックスになっていなかったとしても、SQL文で言えば「GROUP BY」が2回以上入ればクロス集計として捉えています。
弊社がクライアントに対して提供しているサービスに、チームCMOやチームCxOと名づけているサービスがあります。これらはクライアントから生データをそのまま受領し、我々が良かれと思われる軸で分析を実施し、その分析結果を基にマーケティング戦略や成長戦略をCxOの方々と議論していくサービスです。CxOの方々と戦略を議論するためには、我々もCxOの方々もクライアント企業の状況を正確に把握しておく必要あり、そのためにクライアント企業の事業構造分析を実施します。クライアント企業の事業構造をあらゆる軸から切り、戦略を立案するにふさわしいデータ分析結果をビジュアル化させます。これを我々は「地図作り」と表現しています。この地図作りのためにクロス集計は外せません。他の分析手法を途中途中で挟むことはあっても、最終的に地図を表現する際には100%クロス集計を活用します。最もシンプルで誰でも使う分析手法だからこそ、実はその使い方を高度化させていくだけで多くのことを発見していくことができます。
事業構造分析の参考記事:大きなPDSの事例を見てみる
2次属性データ×クロス集計で見える世界
クロス集計を最強のものにするには2次属性データが必要になります。「2次属性データ」とは非常に簡単に言うと、「人間が解釈して後から付与したその人やその商品の特徴となる属性データ」ということになります。人間が解釈して後から付与する属性と言うと分かりにくいですが、最もポピュラーに知られている例をあげていきます。RFM分析と言うものを知らない人はいないと思います。そのRFM分析ですが、オーソドックスなケースでは顧客毎にRecency、Frequency、Monetaryの各項目に1〜5のスコアをつけているわけです。最近来たとか、何度も来たとか、たくさん買ったなどに関してあるラインで閾値(しきいち)を設け、その閾値に対してスコアをつけている。これが言ってみれば2次属性データの付与と言うことです。顧客の優良度も2次属性データですし、つまり人間が解釈して後から付与したその人やその商品の特徴となる属性データが2次属性データになります。
例えば、2次属性データである「顧客の優良度」と「商品カテゴリ」でクロス集計をすれば自社の事業構造を詳細に見ていくこともできます。また、2次属性データは商品に付与していくことも出来ますので、商品カテゴリを分析に則した軸に切り替えていくことも可能です。
2次属性データに関する関連記事はこちら
データサイエンティストブームにより、少し複雑な統計分析をしないと価値がないのではないかと言う強迫観念にかられる必要はなく、王道のクロス集計をとにかく使い倒すことでも事業部門としては十分に結果がでると思います。私は日経ビッグデータのターゲット読者を理解していないのですが、それでも「こういう当たり前にすべきことを当たり前にしようよ!」と記事にして頂けるのは非常に喜ばしいことだと感じています。