はじめに
本連載は、連載シリーズ「プロ野球データでクロス集計 with Tableau」および、「プロ野球データでロジスティック回帰の実践 with R」の続編になります。 「データで楽しむプロ野球」さんにある、2014年のプロ野球の全打席データ(約6.6万件)には、打席だけではなく、試合結果の情報も含まれています。2014年のプロ野球の試合は、セ・リーグ、パ・リーグとも、1シーズン144試合。全部で12球団あるので、合計1,728試合のデータがあることになります。「全打席」データのため、バッター側の視点からの変数に限られるという制約はありますが、本連載では、この「試合結果」を単位として、どのような変数が、「勝利」か「敗戦」かに影響を与えるのかについて、決定木(Decision Tree)という機械学習の手法を用いた分析事例を紹介していきたいと思います。
決定木のアウトプット
まずは、下の2つの図をご覧いただければと思います。これが「決定木」という分析手法のアウトプットで、その試合の安打数、四死球数の分岐条件によって、勝率が大きく変化しているのが、ツリー構造でビジュアル的にわかるようになっています。下の図1でいうと、「安打>=8.5」というのが分岐条件、/の右側の数字が勝利数、左側の数字が敗戦数になります。
図1 セ・リーグの勝敗の決定木
図2 パ・リーグの勝敗の決定木
この図から以下のことが読み取れます。
セ・リーグでは、9安打以上打つと、勝率が66%に上がります。一方、8安打以下になると、勝率が33%に下がりますが、四死球を5つ以上取れれば、勝率は59%になります。
パ・リーグでは、8安打以上打つと、勝率が66%に上がります。中でも、10安打以上打つと、勝率は74%にも跳ね上がります。逆に、7安打以下になると、勝率は28%にとどまります。
非常に大雑把に比較すると、とにかく多く安打を打てば試合に勝てるのがパ・リーグで、安打が少なくても四死球や犠打・犠飛を取ることで勝つ可能性もあるのがセ・リーグという感じになります。
もちろん、背景には指名打者といったルールの違いもありますが、非常に興味深く、それでいて納得感のいく結果といえるのではないでしょうか。
ちなみに、セ・リーグ、パ・リーグとも、試合がホームかビジターかどうかは勝敗に影響を与えておりません。これは、モデルにはホームかビジターかの変数を投入したにもかかわらず、決定木においては、勝敗を「分岐」する要因にはならなかったということです。
今回は、分析の概要について紹介しました。次回以降は、決定木とは何かと決定木のアルゴリズム、Rでの実装、分析結果の詳細について説明していきます。
【連載記事】プロ野球データで決定木(Decision Tree) with R
第1回 問題意識と決定木の見方(本記事)
第2回 決定木のCARTアルゴリズム
第3回 Rでの決定木の実装
【当記事は、ギックス統計アドバイザーの中西規之が執筆しました。】
中西 規之(なかにし のりゆき)
ギックス統計アドバイザー。公益財団法人日本都市センター研究室