目次
機械学習を学ぶ者にとっての「戦略的データサイエンス入門」
これまで、「戦略的データサイエンス入門」(O’REILLY)をビジネス視点、統計学の視点から各エキスパートが語ってきたわけですが、今回は、機械学習を学んでいる者の視点から同書を紹介していきます。
機械学習とは?
まず最初に、「機械学習」について振り返ってみましょう。前回の記事(統計家の視点で読み解く)では、統計学と機械学習との対比の中で取り上げましたが、改めて機械学習を定義すると、「様々な分野の技術を駆使し、コンピュータに人間と同じように振る舞えるようにする技術・手法」となります。つまり、人間があるデータからパターンを見つけるように、機械(コンピュータ)が、あるデータからパターンを見つけられるようにする技術や手法を意味するわけです。
機械学習を現在学んでいる者にとってのこの本の意義
現在、ビッグデータという言葉が日常的に飛び交う時代の中で、ビッグデータを扱う技術・手法である機械学習にも注目が集まっています。機械学習に関する情報はインターネット上でどんどん発信され、機械学習にを現在学んでいる人は、関連情報に簡単にアクセスできる世の中になっています。そんな中で、本書が提供する意義は何でしょうか?
それは、「機械学習を”実際のビジネス現場に活かしていく”ためのエッセンスが余すところなく紹介されている」点に尽きると思います。勿論、本書においても、様々な機械学習の手法も解説されています(複雑な数式やアルゴリズムにそこまで深入りはしてませんが、、、)。しかし、そのような機械学習に関する汎用的な情報は、本書ではなくとも、十分に学ぶことは可能です。機械学習を現在学んでいる筆者からみた本書の価値は、いかに実際の事業へ活用していくべきなのかという観点にこそ、価値があると考えております。
例えば、本書の付録には、分析プロジェクトの評価レビューのガイド(付録A)や提案サンプルとその評価(付録B)が掲載されており、データ分析によるビジネス問題の解決の重要なポイントが掲載されています。付録Bには、提案サンプルに対する評価がなされており、その欠点は何かについて触れてありますので、ビジネスにおける適用ポイントを掴みやすいと思います。(387~394頁)
手法云々だけではなく、こういったビジネスへの適用に関する解説をぜひおさえておきたいものです。
これから機械学習を学ぶ方へ
次にこれから機械学習を学んでみたいと思っている人にとって、本書は、どのように役立つのかを考えてみましょう。
正直なところ、機械学習の初学者にとっては、本書は読み辛いと感じています。原著が英文であるが故に、翻訳文がこなれていないという背景もありますが、いきなり教師あり/なしの手法を読んでいくのは、まったくの初学者にとっては、なかなか理解が進み辛いと思われます。他の例を挙げると、より実際的なモデリングの話となる第3章(60頁)から「エントロピー」という用語がすぐに登場しています。自然科学などの数理的な知識がないとその辺りは読み進めるのは難しいかもしれません。
ですので、これから機械学習を学ぶ方には、『初学者向けの書籍等』で理解をある程度深めてから、本書を読むことをおススメします。
とはいえ、「この本は初学者には少し難しく、『初学者向けの書籍等』で勉強してから読んでください」で終わるのは、いくらなんでも少し乱暴すぎるので、私が機械学習をこれまで学んできて役に立ったもの、すなわち私なりの『初学者向けの書籍等』を紹介しておきますね。
①Coursera Machine Learning (https://www.coursera.org/course/ml)
オンライン学習コースの先駆けでもあるCourseraが提供している機械学習のコースです。プログラミング演習もあり、実際に手を動かしながら、基礎を身に付けることができます。詳しくは、筆者の個人ブログ(http://yuu-kimy-note.hatenablog.com/entry/2014/06/13/124454)を参照頂けたらと思います。
万遍なく手法が紹介されており、 丁寧に理論を理解するのであれば、是非読んでおきたい書籍です。実は、勉強会が開かれるほど人気があります。
③銀座で働くData Scientistのブログ (http://tjo.hatenablog.com/)
データ分析業界では、かなり有名なデータサイエンティストTJO氏のブログです。Rでの分析サンプルが丁寧に書かれているので、非常に読み応えのある内容となっています。
最後に:ビジネス、統計学、そして、機械学習が連携してこそ、更なる価値の創出が可能となる
これまで3回に渡って、各視点からの「戦略的データサイエンス入門」をみてきました。それぞれ、異なる観点から本書を捉えてきたわけですが、実際のデータ分析/活用の現場では、各専門家が連携してこそ、よりビジネスにおける価値を生み出すと筆者は考えております。
・ビジネスを理解してこそ、データ分析の結果をビジネスに還元できます。
・統計学を理解してこそ、ビジネスで起きた現象を解き明かし、人間にその世界(の構造)を広めることができます。
・機械学習を理解してこそ、ビジネス上の現象を理解し、コンピュータにそれを教え、人間の意思決定を支援することができます。
本連載が、様々な専門領域を持つ方々にとって、本書への各視点での捉え方を提起し、最終的に、各領域の専門家を結び付けるキッカケとなれば幸いです。最後までご覧頂き、誠にありがとうございました。
戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック
【当記事は、ギックスの分析ツールアドバイザーであるYuu.Kimy氏にご寄稿頂きました。】
Yuu.Kimy
ギックス分析ツールアドバイザー。普段は、某IT企業にてデータ活用の検討/リサーチ、基盤まわりに従事。最近の関心事は、Rの{Shiny}パッケージのWebアプリ作成、Pythonによるデータ分析、機械学習等々。週末は、家事と子どもの担当をこなす(?)家庭にやさしいエンジニア(の端くれ)。
【個人ブログ】http://yuu-kimy-note.