2014年全6.6万打席の紹介|プロ野球データでクロス集計 with Tableau 第1回

  • f
  • t
  • p
  • h
  • l
eyecatch_baseball

2014年のプロ野球全打席データをクロス集計していきます

我々ギックスは、データ分析において「加工されていない生データを手元に持ちましょう」「複雑なモデルを作らなくてもクロス集計で十分なケースが多いです」「仮説を検証するための人間の頭で考える2次属性付けが重要です」というようなギックス流の分析手法をこれまで繰り返し紹介しています。

それらのギックス流の分析を多くの方に身近に実感していただくために、共有可能なデータを使って分析を実践していくさまを紹介できないかと常々考えていたのですが、ついに面白いデータを見つけました。それは『日本プロ野球の全打席データ(2014年)』です。

映画・小説「マネーゲーム」に端を発してセイバーメトリクスという言葉もポピュラーになり、プロ野球データを分析することに注目は集まっていますが、我々はセイバーメトリックスのようになにかの式で算出した指標を出すのではなく、打席データを全量(約6.6万件)手元に置いて、それをいろんな切り口でクロス集計して、プロ野球全体の打席の傾向を見える化するということを試みます。その過程で、クロス集計や2次属性付けの実例を紹介していけると考えています。

今回の連載を通じて分析を行うツールとしては、Tableauを利用することにしました。Tableauはクロス集計は軸を変えてサクサクできますし、ビジュアルも見やすいので。それらTableauの機能についても連載の中で随時紹介していきたいと思います。

「データで楽しむプロ野球」さんの公開データをひたすらコピペして2014年プロ野球全打席データを作成した

さて、まず『2014年プロ野球全打席』ののデータソースですが、「データで楽しむプロ野球」さんのサイトをもとにデータを作成しました。

「データで楽しむプロ野球」さんには、個人の全打席データが公開されいるのですが(例えばわが愛する阪神タイガースの大和選手のページはこんな感じ)、今回我々はこれを12球団、全選手分ひたすらコピペしました。1軍で打席のあった457人分。労力はかかりましたが、全選手のものを網羅できているはずです。結果、全打席数は66,142打席になりました。あらためて、すごい打席数あるんですね。

(※尚「データで楽しむプロ野球」さんのサイトにも記載がありますが、今回我々が使用するデータも、データの正確性は保証しません。今後弊社がこのデータを使って情報を元に何かしらのデータを作成して損害が発生しても一切の責任を負いません。)

2014年プロ野球全打席データがもつ主なデータフィールド(列)は以下の通りです。

  • チーム名
  • 選手名
  • 月日
  • 球場
  • 対戦チーム名
  • その打席が回った回数
  • その打席時の点差、スコア、アウト数
  • ランナーの状況
  • 打席の結果
  • 結果を出した時のカウント(ストライク数、ボール数)
  • その試合の結果

このフィールド項目をみるだけで、明らかにクロス集計したら面白ですし、2次属性もいろんな観点から付けることができそうですね。いろいろ見てみたいことが出てきて、早くクロス集計したくなり、うずうずしますが、今日はまず、その前にこのデータ、特に「打席の結果」に関しての基本的な数値を押さえておきます。

どのような分析においてもまずデータの基本的な数値を抑えることはファーストステップですので。

2014年日本プロ野球全体の打席 基本数値

2014年プロ野球全体の打席数は、上述の通り、66,142打席。

まず、その全打席の結果を純粋に①安打、②四死球、③犠打飛、④凡打(失策含む)にわけると、①安打-15,123安打(22.9%)、②四死球-6,078個(9.2%)、③犠打飛-2,029回(3.1%)、④凡打-42,912回(64.9%)となります。打席のうち、アウトは③犠打飛と④凡打の和ですので2/3程度を占めます。ここから平均打率を算出すると、打率=①安打数/(①安打数+④凡打)で計算できますので、平均打率(投手含む)は、2割6分1厘になります。

ただ、この打席には投手の打席も入っています。66,142打席数のうち、1,836打席は投手の打席ですので、それを除いた野手の総打席数は、66,337打席になります。その内訳は、①安打-14,941安打(23.2%)、②四死球-6,037個(9.4%)、③犠打飛-1,823回(2.8%)、④凡打-41,505回(64.5%)でした。平均打率(野手のみ)は、2割6分5厘です。

よく、打率が2割5分ぐらいの打者に対して、「もうちょっと打ってくれよ」と期待してしまいますが、2割5分は野手の平均打率を1分5厘も下回る数字なので、データから見てもおかしくない感覚といえそうですね。

ちなみにわが愛する阪神タイガースの場合、今年ブレイクの上本選手が2割7分6厘で平均を大きく超えてイメージ通りですが、センターの守備は抜群だが、打撃は淡泊すぎるだろと思っていた大和選手が2割6分4厘で、野手平均とほぼ同等。シーズン前半は打たないのになぜずっとスタメンなのだと批判を浴び続け、シーズン後半からクライマックスシリーズにかけて爆発した福留選手の1年を通じての打率は2割5分3厘で平均を大きく下回る数字。来年は前半からもう少し安定した打率を期待ですね。

本日最後は、セリーグとパリーグの打席数、安打数の比較です。

セリーグの打席数が33,163、パリーグの打席数が32,979でほぼ同等なのに対して、セリーグの安打数が7,723本、パリーグの安打数は7,400本とセリーグのほうが安打数が多いです。これはピッチャーの打席も含んだものですが、交流戦以外の通常のペナントレースもピッチャーが打席に立つセリーグのほうが安打数が多いのは少し意外でした。打率(ピッチャー含む)でみても、セ・リーグが2割6分4厘に対して、パ・リーグが2割5分7厘。なんとなく自分のイメージで、パリーグには野武士のような強打者が多い印象を持っていましたが、今はパリーグに沢村賞のオリックス金子をはじめよいピッチャーが増えているので、パリーグの安打数が低くなっているのかもしれませんね。

本日はまず最初に「打席の結果」に関する基本的な数字だけを抑えましたが、これらの基本数値を把握したうえで、次回以降、プロ野球データへの2次属性付けやtableauでのクロス集計を実施していきたいと思います。

 

【連載記事】プロ野球データでクロス集計 with Tableau

第1回 2014年 全6.6万打席の紹介(本記事)
第2回 カウント別の打率
第3回 カウント別打率ランキング 【セリーグ】
第4回 カウント別打率ランキング 【パリーグ】
第5回 大差な時に打つ打者(概要)
第6回 火事場泥棒・焼石に水な打者 【セリーグ】
第7回 火事場泥棒・焼石に水な打者 【パリーグ】
第8回 計算フィールドの利用

 

  • f
  • t
  • p
  • h
  • l