ギックスの本棚/ナンバーセンス ~ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方(カイザー・ファング 著/矢羽野薫 訳/CCCメディアハウス)
- TAG : Garbage in Big “X” Out | ギックスの本棚
- POSTED : 2015.02.10 00:03
f t p h l
あれ?って思えるのがセンス
本日は、”ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方”という副題がつけられた、「ナンバーセンス」をご紹介します。尚、この本は、ヤバい統計学の著者であるカイザー・ファングの著書です。
ナンバーセンスは、無いとヤバい能力
ナンバーセンスとは、なんでしょうか。プロローグより引用します。
問題のあるデータやアナリストを見たときに何かが違うと感じる。それがナンバーセンスだ。ナンバーセンスは、真実に近づきたいという欲望と粘り強さでもある。自分の分析がどこから生まれ、どこに向かうのかを理解する。手がかりを集め、罠を見抜く。どこで引き換えし、どこで突き進めばいいのかを見きわめる知恵であり、立ち止まる分別だ。ナンバーセンスがある人は、曲がり角を間違える回数を最小限にしてゴールにたどり着く。ナンバーセンスがない人は迷路で途方に暮れ、永遠にゴールを見つけられないだろう。
この最後の「ナンバーセンスがある人は、曲がり角を間違える回数を最小限にしてゴールにたどり着く。ナンバーセンスがない人は迷路で途方に暮れ、永遠にゴールを見つけられないだろう。」という一文は、非常に重いです。そして、筆者はこう続けます。
私がデータ分析の専門家に求める第一の資質は、ナンバーセンスだ。
統計モデルのプログラミングの天才でも、ナンバーセンスが欠けているかもしれない。点を線で結んでストーリーを語る達人でも、ナンバーセンスは無いかもしれない。
つまり、統計スペシャリストであっても、戦略コンサルタントであっても、「ナンバーセンス」がなければ、「データ分析の専門家」を名乗ってはいけない、ということです。
データに騙されるな
本書は、具体的に「データに騙される」あるいは「データを読み違えている」というケースが紹介されます。
ロースクール(法科大学院)の章では、大学の平均点をどのようにすればコントロールできるかが語られます。それによって「そのロースクールの評価」が定まるにもかかわらず、うまくやれば「統計的には、他校よりも良い」という指標を得られてしまうわけです。(日本人には馴染みが薄い話なので、実感を伴って理解するためには、この章を飛ばして、後から読み直した方がいいかもしれません。)
グル―ポンに関する章では、「新規顧客が、クーポンを使って空席を埋めてくれるならば、店にとって”プラス”である」というグル―ポンのセールストークと、実際には「クーポン客によって締め出された正規料金顧客による機会損失(マイナス)」および「正規料金を払ってくれる人が割引料金になることによる機会損失(マイナス)」が発生しているという事実について語ります。(飲食店の割引に関しては、ツイッターで拡散されたホットペッパーの話(netgeek)が記憶に新しいところですね)
同じくグルーポンの「パーソナライズ」に関する章では、「グルーポンの狙いたい顧客層」と「飲食店がグルーポンに期待する顧客層」に乖離がある、ということを語ります。前者は、「クーポンを積極的に買ってくれる層(=常連客層を含む)」であり、後者は「クーポンが無いと店に来ない新規顧客層」であるため、この差は致命的です。しかも、顧客にとっては「クーポンがなくても買うもの」に関するクーポンがレコメンドされることが望ましいわけですから、グルーポンと顧客の利害は一致します。さて、”飲食店のメリット”とはなんでしょうか?
このほかにも、非常に多くの「数字のトリック」が本書では紹介されます。
センスを磨け!
これらの例は、少々極端すぎるようにも思います。しかしながら、もっともっと身近な事例がたくさんあります。
例えば・・・
- 支店別の売上推移を分析して優秀支店の報告をしていたが、実際には、売上が多い支店では値引きが横行した薄利多売となっており、定価販売をしている他支店のシェアを奪っていたことに気付かなかった
- 「大切な大口顧客だから」として、手厚いサポートや接待を繰り返していたが、実際には顧客別の利益計算ができておらず、長年にわたって利益がほとんど出ていなかった(ひどいときにはマイナス)
- 欠品率の低さを顧客満足度のKPIとしていたが、中間在庫が異常に膨れ上がっていたのみならず、かなりの量での廃棄処理(あるいは値引き販売)が行われていたことが見えていなかった
そんな馬鹿な!と思うでしょうが、残念ながら、「数字をちゃんとみる」ということは、意外なほどにできていないのです。いや、ほんとに。
こういうことに、どうやったら気づけるのでしょうか。どうしたら”ナンバーセンス”を身につけられるのでしょうか。
訳者あとがきより引用します。
ナンバーセンスの大きな要素は「違和感」だ。(中略)違和感を見逃さず、その出所を探るうちに、数字の本当の意味が見えてくる。
この一文は、とても重要です。そうなんですよ「違和感」なんですよ。この話は、統計に限りませんし、ビッグデータに限りません。常に意識すべきことです。
例えば、サービス利用者の経年推移で「平均年齢」が上昇している、と言われたら、違和感を感じるべきです。(僕なら、年齢別にヒストグラムを作って、各バーチャートを”XX年時点〇〇才だった人”という定義にしてから、経年変化を追います)
または、あるサービスの利用者のうち、3割がリピーターだとした場合に、「40代男性の場合はリピート率が8割超」となったら、「違和感」を感じるべきです。(尚、リピーターの8割が40代男性、であれば、僕は違和感を感じません)
あるいは、選挙の「得票数」と「獲得議席」の話だけがクローズアップされていたら、違和感を感じるべきです。(そうです。ここには「得票率」の観点が抜けています)
出所:某議員さんのtwitterアカウントより
これらの違和感は、必ず”検証”されるべきです。検証の結果、当初の主張が正しいことが明らかになれば、それで良いですし、もしも当初の主張が正しくなかったという結果になれば、あなたのナンバーセンスの向上の証となるでしょう。
どうすれば「違和感」を抱けるか
では、「違和感」を感じるために重要なのは、なんでしょうか。本書においても「データをよく見る」などのテクニックは語られますが、これでは「できる人にはできるが、できない人にはできないアドバイス」の域を出ないように思います。
そこで、もはや、弊社ブログではお約束となったチャートを、また引き合いに出させていただきます。
結局のところ、センスというものは、(知識+経験)×(知恵+想像力)だと僕は思います。そして、センスが無いと嘆く人の大半は、「知識」や「経験」が圧倒的に足りていません。まずは、いろんなデータを見て、自分の頭の中にバリエーションを溜めこむところからはじめましょう。話はそれからです。
その上で、まだまだ「ナンバーセンス」が無いな、と思う場合は、考え方を考える必要があります。(具体例・実例を幾ら溜めこんでも「概念化」できないとダメだ、などの話があるわけですね) しかしながら、大半の方は、まずは数をこなすところから始めるべきです。いろいろと講釈を垂れているよりも、始めたほうが早いです。レッツビギン。とにかくなにかをはじめよう! ということで、本書に詰め込まれた豊富な事例をまずは真剣に読み込んで血肉として、そのエッセンスを自分なりに抜き出す(つまり、概念化する)努力を始めるとよろしいかと思います。
f t p h l