MLFA(2):足球數(shù)據(jù)分析常用數(shù)據(jù)集介紹
要將機(jī)器學(xué)習(xí)算法應(yīng)用于足球數(shù)據(jù)分析,就必須先有一套關(guān)于比賽內(nèi)容的數(shù)據(jù)集。本專欄的第二篇文章將介紹足球數(shù)據(jù)分析領(lǐng)域常用的兩種數(shù)據(jù)類型:事件數(shù)據(jù) 與 追蹤數(shù)據(jù),并介紹每種類型中比較知名的數(shù)據(jù)提供商,以及他們免費(fèi)公開(kāi)的數(shù)據(jù)集。
本篇文章部分內(nèi)容參考 Soccer Analytics Handbook
事件數(shù)據(jù)
事件數(shù)據(jù)(event data, a.k.a. play-by-play data)描述了一場(chǎng)比賽中每次有球處理的詳細(xì)信息。具體而言,第三方數(shù)據(jù)公司從比賽錄像中由人工標(biāo)注出每一次處理球事件,例如傳球、射門、盤帶、爭(zhēng)頂?shù)鹊?,并記錄下該事件?球員、時(shí)間、地點(diǎn)(在球場(chǎng)上的坐標(biāo))以及 其他詳細(xì)信息(例如使用的左腳還是右腳、是否成功)。據(jù)統(tǒng)計(jì),一場(chǎng)比賽的事件數(shù)據(jù)大約包含 1700 次事件,且其中約一半的事件為傳球。[1]

比較知名的事件數(shù)據(jù)提供商有 Wyscout、StatsBomb 以及被 Stats Perform 收購(gòu)的 Opta 等。其中,Wyscout 和 StatsBomb 各公開(kāi)了一部分?jǐn)?shù)據(jù),且 StatsBomb 還提供了一種包含 凍結(jié)幀(freezing frame)的數(shù)據(jù)。
Wyscout 公開(kāi)數(shù)據(jù)
Wyscout 的公開(kāi)數(shù)據(jù) 涵蓋了 1941 場(chǎng)比賽, 約 300 萬(wàn)個(gè)事件,涉及 4299 名球員。具體包含的賽事如下表所示。
賽事賽季比賽數(shù)量英超17/18380西甲17/18380德甲17/18306法甲17/18380意甲17/18380歐洲杯201651世界杯201864合計(jì)1941StatsBomb 公開(kāi)數(shù)據(jù)
StatsBomb 的公開(kāi)數(shù)據(jù) 涵蓋的賽事范圍更加廣泛,不僅兼顧男足女足,而且時(shí)間跨度上包含了一些年代較久遠(yuǎn)的比賽,如英超 03/04 賽季中賽季不敗的阿森納的比賽、梅西在巴塞羅那的生涯中所有出場(chǎng)的西甲比賽、99/00 賽季起的部分歐冠決賽。具體包含的賽事如下表所示。
賽事賽季比賽數(shù)量男足世界杯201864歐洲杯202051英超(阿森納)03/0433西甲(梅西)04/05 – 20/21520歐冠(決賽)99/00 – 18/1914女足世界杯201952美國(guó)國(guó)家聯(lián)賽201836英超18/19 – 20/21326合計(jì)1096在傳統(tǒng)的事件數(shù)據(jù)中,一個(gè)事件的信息僅包含了與該事件相關(guān)的球員位置,而場(chǎng)上其他球員的位置不會(huì)被記錄。而 StatsBomb 的數(shù)據(jù)則包含 凍結(jié)幀,即同時(shí)記錄了事件發(fā)生瞬間鏡頭中其他球員的位置。不過(guò),StatsBomb 的公開(kāi)數(shù)據(jù)僅在 2020 年歐洲杯的 51 場(chǎng)比賽中為每個(gè)事件都記錄了凍結(jié)幀(這個(gè)數(shù)據(jù)類型被 StatsBomb 稱為 360 data),而在其他賽事中只對(duì)每腳射門記錄了凍結(jié)幀。

追蹤數(shù)據(jù)
追蹤數(shù)據(jù)(tracking data) 記錄了一場(chǎng)比賽中每時(shí)每刻足球和場(chǎng)上球員的位置坐標(biāo)。這類數(shù)據(jù)是由球員比賽時(shí)的穿戴設(shè)備直接收集獲得,或者通過(guò)計(jì)算機(jī)視覺(jué)的手段從錄像中估算而得。最先進(jìn)的技術(shù)設(shè)備可以得到幀率達(dá) 25 Hz 的追蹤數(shù)據(jù),即每場(chǎng)比賽約 14 萬(wàn)幀數(shù)據(jù)。比較知名的追蹤數(shù)據(jù)提供商有 Matrica Sports、 Stats Perform 、Second Spectrum 等。
然而,想要獲取場(chǎng)上所有球員的追蹤數(shù)據(jù)需要在場(chǎng)館內(nèi)裝配相應(yīng)的硬件設(shè)施,并非每一場(chǎng)比賽都有條件得到這類數(shù)據(jù)。退而求其次,我們可以只關(guān)注直播鏡頭中可見(jiàn)的球員位置,這就衍生出了 直播鏡頭追蹤數(shù)據(jù)(broadcast tracking data)。這類數(shù)據(jù)的提供商有 SkillCorner、Sportlogiq 等。
Matrica Sports 和 SkillCorner 各公開(kāi)了一小部分追蹤數(shù)據(jù),具體情況如下。
Matrica Sports 公開(kāi)數(shù)據(jù)
Matrica Sports 的公開(kāi)數(shù)據(jù) 包含三場(chǎng)匿名比賽,幀率為 25 Hz。除了場(chǎng)上所有球員的追蹤數(shù)據(jù)外,還提供了與追蹤數(shù)據(jù)時(shí)間對(duì)齊的事件數(shù)據(jù)。同時(shí)擁有時(shí)間對(duì)齊的追蹤數(shù)據(jù)和事件數(shù)據(jù)往往更有利于分析工作的進(jìn)行。

SkillCorner 公開(kāi)數(shù)據(jù)
SkillCorner 的公開(kāi)數(shù)據(jù) 包含了 19/20 賽季五大聯(lián)賽冠亞軍之間的共 9 場(chǎng)比賽[2]的直播鏡頭追蹤數(shù)據(jù),幀率為 10 Hz。由于 SkillCorner 本身并不是事件數(shù)據(jù)提供商,因此,必要時(shí),使用這些數(shù)據(jù)需要將其和其他提供商的事件數(shù)據(jù)進(jìn)行時(shí)間對(duì)齊。
在下圖中,我們可以明顯觀察到該類數(shù)據(jù)只能追蹤到鏡頭區(qū)域內(nèi)的球員。據(jù)統(tǒng)計(jì),直播鏡頭追蹤數(shù)據(jù)平均每幀只能捕獲到 14 名場(chǎng)上球員。

由于足球場(chǎng)地大、人員多的特點(diǎn),數(shù)據(jù)收集難度大,起步也較晚。在足球以外,例如籃球,NBA 從 2013 年起就引入了 Stats Perform 的 SportVU 系統(tǒng),在場(chǎng)館內(nèi)安裝設(shè)備收集追蹤數(shù)據(jù)。
雖然如今已有很多數(shù)據(jù)提供商開(kāi)始收集足球數(shù)據(jù),但免費(fèi)公開(kāi)的數(shù)據(jù)相對(duì)于提供商掌握的數(shù)據(jù)還是鳳毛麟角,希望將來(lái)能有更多的公開(kāi)數(shù)據(jù)提供給拿不到合作的研究者和足球分析的業(yè)余愛(ài)好者使用,促進(jìn)足球數(shù)據(jù)分析領(lǐng)域的技術(shù)進(jìn)步。
從下一篇文章開(kāi)始,我將開(kāi)始分專題介紹機(jī)器學(xué)習(xí)在足球數(shù)據(jù)分析中的應(yīng)用。
PS: 下一篇選什么專題還沒(méi)想好,可能先搞點(diǎn)簡(jiǎn)單的 :)
參考
^Pappalardo L, Cintia P, Rossi A, et al. A public data set of spatio-temporal match events in soccer competitions[J]. Scientific data, 2019, 6(1): 1-15. https://www.nature.com/articles/s41597-019-0247-7^法甲 19/20 賽季因疫情提前終止,故該賽季巴黎圣日耳曼與馬賽之間有一場(chǎng)比賽未進(jìn)行。掃描二維碼推送至手機(jī)訪問(wèn)。
版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請(qǐng)聯(lián)系。