2014年のプロ野球全打席データをクロス集計していきます
2014年のプロ野球の打席データを全量(約6.6万件)手元に置き、さまざまな切り口でクロス集計して、プロ野球全体の打席の傾向を見ていく「プロ野球データでクロス集計 with Tableau」の連載シリーズ。第7回までは、その6.6万件の打席データを様々な切り口でクロス集計した結果、見えたことを中心に紹介してきました。
前回第8回からは少し趣を変えて、これまで紹介してきた結果はTableauでどのように集計していたかという、具体的なTableauの使い方をいくつか紹介しています。前回はTableauの機能の一つである「計算フィールド」の紹介でしたが、今回は2次属性づけにも役立つ「グループ」機能についての紹介です。
2次属性の付け方
まず2次属性の説明です。弊社のブログではこの2次属性は幾度も登場していますが、再度定義を紹介していますと、「2次属性とは、人間が解釈して、後から付与する人やその商品、購買傾向の特徴となる属性データ」と定義されます。仮説検証・事業構造把握のためにトランザクションデータを集計・加工し新たに作成する属性とも言えます。
ですので、2次属性は、仮説検証・事業構造の把握のために思いつく限りさまざまな形で作成し、付与するわけですが、その中でもよく使う2次属性の汎用パターンというものが存在します。汎用的パターンの代表的なものとして、「ランク付け」と「カテゴリー利用フラグ付け」が挙げられます。(詳細はコチラ)
Tableauでは特にその「ランク付け」を試行錯誤するときに便利な「グループ」という機能がありますので、その使い方を紹介していきましょう。
Tableauの「グループ」は試行錯誤に適している
具体的な事例でグルーピングの手順を見てみましょう。コチラで紹介した点差別打率の例でみます。
まず元データの6.6万打席のデータには、全打席に対して、その打席時点の「得点差」がついています。得点差の表現形式は、勝っている時点はLeadの頭文字のL、負けている時点はBehindの頭文字のB、同点の時はEvenの頭文字のEを使い、その後ろに点差が数字でついています。例えば、5点差で勝っているときはL(5)、10点差で勝っているときはL(10) 、5点差で負けているときはB(-5)、10点差で負けているときがB(-10)、同点の状態がE(0)と表現されています。
まず、この得点差6.6万打席分をそのままTableauで集計してみます。集計の方法は、Tableauの行フィールドに「得点差」を持っていき、「レコード数」をできたマトリックスの真ん中のフィールドにもっていきます。これで以下のような得点差別に打席数が仕分けられました。同点の打席が約1.9万打席で一番多いですね。ついて勝っているとき負けているときの1点差の打席が約8千件で続き、正規分布のような形になっているでしょうか。
ここに前回計算フィールドで作成した「打率」という項目を追加すると得点差別の打率も集計できます。
さて、これはこれで大事なデータですが、この1点づつの得点差、合計で31区分(勝っているときが1点差~15点差の15区分、負けているときが1点差~15点差の15区分、同点が区分で合計31区分)ある打率を31個分1つ1つ見ていってもなかなか示唆は出せないです。特徴が出る範囲でまとめてグループにしたいところですよね。ここでtableauの「グループ」機能の出番です。エクセルでは、新たなフィールドを用意してそこでif文を使ってグループのしきい値を定義してという作業を繰り返すという手間のかかる作業をtableauの「グループ」はUI上で簡単に実施できます。具体的な作業を見てみましょう。
得点差のフィールドで纏めたい項目をコントロールを押しながら選択したうえで、右クリックして、出てきた「グループ」を選択します。これで簡単に「グループ」を作成することができます。下の例ではB(-15)からB(-5)を選んで「5点差以上での大差負け」のグループを作っています。
この作業でB(-15)からB(-5)を一つのグループにした項目ができます。人数は自動的に加算されますし、打率も前回説明の計算フィールドで作成しているので自動的に新しいグループでの打率が計算できるようになっています。
新しく作成したグループ名を変更したい場合は、右クリップで選択して、「別名の編集」から作成したグループ名を変更することができます、。大差勝ち、僅差などを作成するのも同様の作業で瞬時に実施できます。
このように拍子抜けするほど簡単にグループを作成できますが、2次属性を付けるという観点から見ると、簡単で『試行錯誤しやすい』ということが重要です。2次属性の付け方のポイントの一つに切りのよいしきい値を見つけることが挙げられますが、こんなに簡単にグルーピングが実施できると、適切なしきい値を見つめるまでに何度もやり直しすることもそれほど苦ではなくなりますよね。
シンプルですが非常に使い勝手がよくエクセルでは簡単にできない機能ですので、是非覚えておいて有効活用していください。