2008年12月16日

不要盡信防守數據

近來常常看到許多人在討論防守數據,尤其是進階防守數據,例如Hardball Times的RZR、David Pinto的PMR等等。使用數據本來是一件好事,不過許多人使用這些防守數據的方式有待商榷。當我們在看這些數據的時候必須要記得,他們非常的不可靠。

無論哪一種守備數據,基本的算法就是造成的出局數/守備機會

傳統防守數據以守備率為代表,守備率的公式是:

Fielding Percentage = (A+PO)/(A+PO+E)

其中A是助殺,PO是刺殺,E是失誤,所以我們知道,失誤越多的,守備率越低。

Jhonny Peralta 0.979
Orlando Cabrera 0.978
Adam Everett 0.967

上面是三位游擊手2008年的守備率,相信Peralta守備比Everett優秀的人請舉手。

換另一個角度想,什麼樣的人失誤會比較多?很簡單,就是處理球越多的人,失誤出現的機會也越高,連球都追不上的人,怎麼會被記失誤呢?失誤多當然不是好事,但是另一方面,失誤也不可能完全不出現,而與其擔心失誤多,我們更希望出局數多,而顯然守備率無法處理這一點,因此Bill James發明了Range Factor(RF)。

RF9=(A+PO)/Inn*9

其中Inn代表守備局數,RF9的意義是每9局的防守製造的出局數。

Jhonny Peralta 4.56
Orlando Cabrera 4.62
Adam Everett 5.09
Jimmy Rollins 4.52

這數字看起來比較合理了對不對?等等,我們又看到了一個很難想像的情況,Peralta的RF稍微比Rollins的高。

RF同樣有其缺點,他的分母是守備局數,由製造的出局數/守備機會這樣的公式來看,他假定了守備局數等於守備機會,但是這並不符合現實,投手丘上站的分別是CC SabathiaFausto Carmona的時候,守備機會就大不相同。


Inn
Ball in Play
BIP/9IP
DEF_EFF (BPro)
DER (MLB)
CLE
1437
4484
28.08
.686
.699
PHI
1449.2
4346
26.98
.695
.708

我們可以看到,儘管印地安人隊的守備局數比費城人隊少了12.2局,但是被打入場中的球卻多了138顆,平均每9局全隊多了1.1個守備機會。就算同樣是游擊手,在什麼投手背後防守,守備機會都大不相同,守備機會少的,很容易就被低估,因為他不是追不到球,而是本來打往他這邊的球就少。

於是後來發展出防守效率(Defensive Efficency Rating,簡稱DER)的數據,大聯盟官網跟Baseball Prospectus都有DER可以查,但是兩個DER的數字不同,主要的原因在於BPro的公式裡面有計算失誤的部分,這是比較合理的,下面是BPro的公式:

DEF_EFF = 1-((H-HR+ROE)/(PA-BB-HBO-SO-HR))

ROE代表因失誤上壘的次數,大刮號裡的算式的意義是球打進場內後因為安打或失誤上壘的機率,用1去減就等於將打進場中的球轉換成出局數的機率,這時候分母就等於真正的守備機會。很棒的公式,但是他有一個最致命的缺點,在傳統的紀錄中,我們只能算全隊的DER,要算各個球員的DER的話,需要各個球員的守備機會,需要更詳細的原始記錄。

Sports Team Analysis and Tracking Systems(簡稱STATS)就是一間提供更詳細的原始記錄的公司,派人記錄打出去的球的落點、是飛球、平飛球還是滾地球,是強勁還是軟弱......等等較為詳細的資料。他們也創造了Zone Rating(簡稱ZR)這個數據,在ESPN、CNNSI、Fox Sports等網站都可以查到ZR。

省掉太技術性的細節,簡單的說,他們把球場劃分為許多區域,將這些區域分配給場上的九個防守球員,打進各個區域的球就是他們的守備機會,這樣我們就可以計算每個球員將打到他的防區的球轉換成出局數的機率。

Ultimate Zone Rating(簡稱UZR)是由MGL創造出來的守備數據,一開始是使用STATS的原始數據,也是採用區域劃分的模式,不過有更複雜的調整,同時計算每個出局數理論上守下的分數。UZR的數字代表的是一個球員比一個該位置的平均球員多守下多少分,舉例來說,Grady Sizemore在2007年的UZR是+26,代表他比一個平均的中外野守多守下26分。

Baseball Info Solution(簡稱BIS)是另一間數據公司,他們也有類似ZR的數據,稱為Revised Zone Rating(簡稱RZR),可以在The Hardball Times查到。

Probabilistic Model of Range(簡稱PMR)是David Pinto使用BIS的原始記錄創造出來的防守數據,每年球季後公布在他的blog上,他還提供了每個球員的防守圖表。PMR不是區域劃分的模式,而是以方向為主,同時參考擊球類型(飛球、平飛球、滾地球)、強勁程度、球場......等因素作調整,計算每個球員的預期出局數和實際出局數。在他公布的數據裡,DER的分母不是守備機會,而是所有打進場中的球,而ratio則是實際出局數/預期出局數,超過100代表比該守備位置的平均好。

以上是幾個目前較為主流且方便查找的進階防守數據,由於改善了以往傳統數據的缺點,一般認為是比較好的數據,但是我們仍然可以看到不少問題,舉例來說,不管是不是用區域劃分的方式,都必須面對一個問題:防守佈陣。就算不是Travis HafnerDavid OrtizJason Giambi上場打擊時那種誇張的shift,每個打者上場時,防守球員站的位置都會稍有不同,而這種站位不同造成的差異無法在數據中呈現。

接著我們來看看Sizemore 2007年在各個防守數據中的成績:

ZR .916(1/18)
UZR +26(1)
RZR .881(12/17)
PMR 99.27(31/42)

看到了嗎,他的數據相當極端,在ZR是18名中外野手中的第一名,UZR是最好的中外野手,但是在RZR是17名中外野手中的第12名,PMR則是42名中外野手中的第31名。

過去我們就懷疑這是因為採用不同原始紀錄的關係,ZR、UZR用的都是STATS的原始記錄,而RZR跟PMR則是用BIS的,最近Fangraphs開始提供UZR,而且這是用BIS的資料重新算出來的,正好可以檢查一下。

2007 Sizemore
sUZR +26 (1)
bUZR +5.3 (7)

儘管仍有+5.3稍微高於平均的成績,不像RZR跟PMR都是低於平均,但是仍然與sUZR相去甚遠。根據MGL自己的計算,2005年到2008年之間,bUZR跟sUZR的相關係數是.712(至少50 defensive games的球員),並不算高。記住,這是用同樣的計算方式算出來的數據,唯一的差別就在於原始資料的不同,可見BIS跟STATS的原始資料在記錄上有著不小的差異。

至於同樣使用BIS原始資料的bUZR跟PMR的話,根據Dan Turkenkopf的計算,按照守備位置不同,2008年的bUZR跟PMR的相關係數在.581到.803之間,一樣不算高。

糟糕的是,STATS/BIS、sUZR/bUZR/PMR/ZR/RZR,我們根本不知道用那個比較好,甚至可能都不好。

2005: 3.3
2006: 12.3
2007: 5.3
2008: 11.0

上面是Sizemore 05-08年(這4年防守局數都在1300到1400局之間)bUZR的數據,起伏相當大,其他數據或其他球員也都有類似的情況,這很可能說明了單一球季的防守數據無法用來判斷一個球員守備的好壞,甚至也不是用來描述可以持續展現的能力。

此外,上述的進階防守數據沒有辦法顯示出外野手臂力(雖然實際上臂力好壞的影響本來就小)、投捕手的防守成績也毫無參考價值(事實上投捕手甚至都沒有列入UZR的計算)。

其他還有一些缺點就不贅述,總之,目前的防守數據受到許多因素的影響,無法完全顯示一個球員的能力,服用時請注意,不要完全相信防守數據。尤其是千萬不要隨手拿著一個防守數據就說某某某防守比某某某好,這是防守數據最錯誤的使用方式。

沒有留言:

 
Blogger Template Layout Design by [ METAMUSE ] : Code Name BlackCat 2.0.0