字體:小 中 大 | |
|
|
2022/12/29 20:00:00瀏覽387|回應0|推薦10 | |
相信很多朋友都看過了布萊德比特的「魔球」(The Money Ball)這部電影,知道它是以統計分析方式,將大聯盟的奧克蘭運動家隊,組合一支物超所值的球隊,能高機率打進季後賽。結果2002年它不但達成20連勝,同時也真的打進了季後賽。
當時大聯盟的球探,大多以打擊率(BA)當做球員身價的標準,可是經由數據的收集以及精密的分析,逐漸發現用上壘率(OBP)以及長打率(SLG)其實是比打擊率(BA)更能夠推算出本隊得分數。運動家隊以歷史資料完成了一組線性回歸的模型,模型中包括了長打率SLG、對手長打率OSLG、上壘率OBP以及對手上壘率OOBP等特徵值。而推測的標的,就是勝場數(Wins)或勝率(WPCT)。
首先,要打進季後賽,球隊認為必須要有95勝。換句話說,勝場數就必須大於這數字。接著他們就以線性回歸的方式,找出了所需要的參數如下:
Wins = 80.8814+0.1058 * RunDifference
(Wins 需要 95 以上,所以 RunDifference 必須> 133.4)
RunScored(RS) = -804.6 + 2737.8OBP + 1584.9SLG
RunAllowed(RA) = -837.4 + 2913.6OOBP + 1514.3OSLG (O代表對手opponent)
因為得分差RunDifference等於
RunScored - RunAllowed,所以對手的平均上壘率OOBP和長打率OSLG也要計算出來代入。
2001年整理出來的結果是運動家隊有0.339的OBP和0.430的SLG,而對手們的OOBP是0.307,OSLG是0.373。
所有數據代入之後,最後得知Wins應該等於100,推測這是一支在2002年100勝的隊伍。而真實數據是103,可以說是在誤差之內。
以現代角度,這公式以及資料的收集其實都算粗淺,但別忘了這是20年前,連大數據和機器學習都還沒聽過的時代。
當時的球探在招募球員的時候,往往是以打擊率(BA)當做討價還價的基礎。魔球的成功,卻產生了兩個更重要的參數,就是上壘率和長打率。魔球的理論,非但能以統計方式做精準的勝率預測,且能以最低的代價,最高的CP值,得到最多的勝場。正因如此,它改變了之後球探和球員之間討價還價所用的參數,影響可謂巨大。
與其說魔球開發了一個新的模型,不如說它找到了上壘率和長打率這兩個對勝負影響的特徵值(feature),這也就是我們在探索性資料分析(EDA)常說的,尋找或組合最佳特徵值的重要性。
簡單地說,魔球發現了OBP和SLG能夠更精確地決定勝率WPCT,並找到了這組線性回歸的公式。一旦有了這些,球隊就知道怎麼樣用最低的價碼,組合一個能夠打進季後賽的球隊。這也就是為什麼原著及電影的名稱叫做Money Ball而非Magic Ball,因為事關球隊以及下注者的money。
國內其實也有不少的職業棒球隊,資料收集幾十年來也相當多了,各球團是不是也有相對的預測模型呢?如果你是球隊的管理者或顧問,或者想試試手氣,為了球隊及個人的利益,是不是也可以先發展出一個比線性回歸更厲害的,機器學習的模型呢?
|
|
( 知識學習|科學百科 ) |