魔球的魔術究竟在哪？ - 憐君解比人間夢許我時逃醉後禪

字體：小中大

魔球的魔術究竟在哪？

2022/12/29 20:00:00瀏覽409｜回應0｜推薦10

相信很多朋友都看過了布萊德比特的「魔球」(The Money Ball)這部電影，知道它是以統計分析方式，將大聯盟的奧克蘭運動家隊，組合一支物超所值的球隊，能高機率打進季後賽。結果2002年它不但達成20連勝，同時也真的打進了季後賽。

當時大聯盟的球探，大多以打擊率(BA)當做球員身價的標準，可是經由數據的收集以及精密的分析，逐漸發現用上壘率(OBP)以及長打率(SLG)其實是比打擊率(BA)更能夠推算出本隊得分數。運動家隊以歷史資料完成了一組線性回歸的模型，模型中包括了長打率SLG、對手長打率OSLG、上壘率OBP以及對手上壘率OOBP等特徵值。而推測的標的，就是勝場數(Wins)或勝率(WPCT)。

首先，要打進季後賽，球隊認為必須要有95勝。換句話說，勝場數就必須大於這數字。接著他們就以線性回歸的方式，找出了所需要的參數如下:

Wins = 80.8814+0.1058 * RunDifference

(Wins 需要 95 以上，所以 RunDifference 必須> 133.4)

RunScored(RS) = -804.6 + 2737.8OBP + 1584.9SLG

RunAllowed(RA) = -837.4 + 2913.6OOBP + 1514.3OSLG (O代表對手opponent)

因為得分差RunDifference等於

RunScored - RunAllowed，所以對手的平均上壘率OOBP和長打率OSLG也要計算出來代入。

2001年整理出來的結果是運動家隊有0.339的OBP和0.430的SLG，而對手們的OOBP是0.307，OSLG是0.373。

所有數據代入之後，最後得知Wins應該等於100，推測這是一支在2002年100勝的隊伍。而真實數據是103，可以說是在誤差之內。

以現代角度，這公式以及資料的收集其實都算粗淺，但別忘了這是20年前，連大數據和機器學習都還沒聽過的時代。

當時的球探在招募球員的時候，往往是以打擊率(BA)當做討價還價的基礎。魔球的成功，卻產生了兩個更重要的參數，就是上壘率和長打率。魔球的理論，非但能以統計方式做精準的勝率預測，且能以最低的代價，最高的CP值，得到最多的勝場。正因如此，它改變了之後球探和球員之間討價還價所用的參數，影響可謂巨大。

與其說魔球開發了一個新的模型，不如說它找到了上壘率和長打率這兩個對勝負影響的特徵值(feature)，這也就是我們在探索性資料分析(EDA)常說的，尋找或組合最佳特徵值的重要性。

簡單地說，魔球發現了OBP和SLG能夠更精確地決定勝率WPCT，並找到了這組線性回歸的公式。一旦有了這些，球隊就知道怎麼樣用最低的價碼，組合一個能夠打進季後賽的球隊。這也就是為什麼原著及電影的名稱叫做Money Ball而非Magic Ball，因為事關球隊以及下注者的money。

國內其實也有不少的職業棒球隊，資料收集幾十年來也相當多了，各球團是不是也有相對的預測模型呢？如果你是球隊的管理者或顧問，或者想試試手氣，為了球隊及個人的利益，是不是也可以先發展出一個比線性回歸更厲害的，機器學習的模型呢？

( 知識學習｜科學百科 )