第6章:予測分析の技法|勝手に読み解く「データ活用実践教室」:予測の前に”課題”を括りだそう
- TAG : graffe | グラーフの本棚 | データ活用実践教室を読んでみた
- POSTED : 2015.04.18 09:48
f t p h l
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
「何を」予測するのか、が大切。
本連載では、日経BP社より出版された「トップデータサイエンティストが教えるデータ活用実践教室」を、勝手に読み解いていきます。
今回は、オプト 西山直樹氏による第6章「予測分析の技法」を取り上げます。
予測モデルを用いた課題解決のコツを語る
本章では、著者の西山氏の所属するオプトデータサイエンスラボが提供するアナリティクスのクラウドソーシングサービス「DeepAnalytics」で開催されたコンペを例に挙げて、データサイエンティストたちがどのようなアプローチで”未来予測”に挑んでいるのかが紹介されます。
大事なのは「変数」と「手法選択」
西山氏は、大切なのは「変数」を何と置くか、と、その「分析手法」を何とするか、の2点だと説きます。
予測モデルを構築する際に検討すべき観点は大きく2つある。1つ目は予測のために与えられた変数のうちどれに着目して、それらをどのように加工して利用するかという変数選択の観点だ。いわゆる「特徴量」や「素性」をどのように構成するかということである。
2つ目は予測の手法・アルゴリズムとして何を採用し、これらのパラメーターをどうチューニングするかという観点だ。
さらに、変数選定・手法選択のいずれにおいても「仮説」が重要だと主張されます。
今回のコンペでは総勢48人の参加者が683種類のモデルを構築した。入賞者のアプローチを見ていえることは、やはり予測しようとする事象に対する仮説が重要だということである。目的とする予測変数と特徴量の関係をどのように捉えるのか、その関係を方法論にまで如何に還元していくかといった視点を堅持しよう。どのようなモデリングをするにしても、その事象に対する質的なイメージ、発想を忘れてはならない。
予測モデルコンペの活用=外部の知見の活用が鍵
前章(第5章)でも、「外部の知見を活用しよう」というお話が出てきましたが、今回でてきたものは少し毛色が違います。
これは、「予測モデリング」という特殊な領域ですので、(アイデアだしとは異なり)社内の知見に頼るのは難しいです。外部を活用するメリットとして、西山氏は以下の4点を挙げています。
- 才能豊かな人材と連携できる
- 異なる分野の知見を利用できる可能性がある
- 良い意味でのゲーム性が分析の品質を向上させる
- その課題に対する予測モデルの「実力」の見当がつく
予測モデル作りにも「課題設定」が大事
第2章でヤフー安宅氏が、あるいは、第3章でオージス総研吉田氏が述べていたのと同様、予測モデルを作る際にも「課題設定」が重要です。「どの問いに応えるための予測モデルなのか」をあらかじめ設定する必要があります。
コンサルタントを雇う際にも良くあることですが、コンサルタントの使いどころは2つあります。それは「課題特定」と「課題解決」です。どちらのフェーズで依頼しているのかは、コンサルタントに依頼する前に明らかにしておくべきです。(なぜなら、それによってアウトプットが変わるからです)
まずは、自社の事業構造・ビジネス構造をしっかりと理解し、「答えるべき問い」を明らかにしてから、課題解決に進むことが重要です。
トップデータサイエンティストが教える データ活用実践教室
f t p h l