O powtarzalności słów kilka
Dobre drużyny i dobrych zawodników charakteryzuje stałość formy i pewna powtarzalność: wyników, schematów, zagrań. Statystycy piłkarscy też szukają powtarzalności. Zobaczymy, czy uda się ją znaleźć w naszej lidze.
W poprzednim tekście wprowadziliśmy dwa wskaźniki pozwalające na lepszą analizę gry drużyn Ekstraklasy. Teraz sprawdzimy, jak bardzo są one powtarzalne.
Zanim jednak rozpoczniemy przegląd ich użyteczności, należy wprowadzić jedno pojęcie z zakresu statystyki: współczynnik determinacji R-kwadrat. W uproszczeniu określa on, w jakim stopniu jedną zmienną (np. punkty w lidze) można objaśnić za pomocą innej zmiennej lub zmiennych (np. bramki zdobyte lub stracone). Wskaźnik przyjmuje wartość od 0 do 1, przy czym im wyższy, tym lepsze dopasowanie. Gdyby zaliczać piłkę do którejś z nauk, byłaby ona nauką społeczną. A w tej dziedzinie R-kwadrat w okolicach 0,4 można już uznać za przyzwoity wynik.
Pierwszą z zalet Total Shot Ratio jest jego względna stałość w czasie. TSR szybko zbliża się do poziomu, wokół którego będzie oscylował przez resztę sezonu. I to się potwierdza w przypadku naszej ligi. W tym sezonie TSR drużyn po 5. kolejce i po 19. ma R-kwadrat 0,61, czyli nieźle.
Druga z zalet TSR to powtarzalność z sezonu na sezon. Z obliczeń Jamesa Graysona dla ligi angielskiej wynika, że R-kwadrat dla TSR w dwóch kolejnych sezonach powinien wynieść ok. 0,75, i być nieco wyższy od innych wskaźników jak bramki zdobyte, stracone, różnica bramek czy liczba punktów na mecz. W przypadku polskiej ligi nie ma wystarczających danych, by pisać z dużą dozą pewności, ale porównanie TSR z poprzedniego sezonu z aktualnym daje R-kwadrat 0,36. Co gorsza, jest to słabszy wynik niż w przypadku zdobytych bramek (R-kwadrat 0,58) oraz różnicy bramek i ich stosunku (0,56). Natomiast TSR spisuje się lepiej od bramek straconych (0,08) czy punktów na mecz (0,24). Mamy zbyt mało danych, by wyrokować, ale możliwe, że polska liga różni się pod względem powtarzalności TSR od angielskiej.
Trzecia z zalet TSR, o jakiej pisze główny teoretyk tego wskaźnika, to dobra korelacja ze zdobyczą punktową w lidze. I tu pojawia się poważny problem. Dla Premiership R-kwadrat to ok. 0,65. W innych ligach wygląda to różnie, np. we francuskiej Ligue 1 jest to bliżej 0,40. Tymczasem dla Ekstraklasy to obecnie zaledwie 0,1 – wskaźnik sygnalizujący zupełną przypadkowość. Lepiej było w poprzednim sezonie: na koniec R-kwadrat wynosił 0,35, a w przerwie zimowej 0,25. Być może w tym sezonie relację zaburza bardzo słaby wynik punktowy Zawiszy. A być może związek TSR z punktami się poprawi w dalszej części sezonu. Lepiej ze zdobyczą punktową koresponduje PDO, co nie jest zaskoczeniem, skoro zdobyte i stracone bramki są składową wskaźnika. R-kwadrat dla obecnego sezonu to 0,6. Na koniec ubiegłego było to 0,49, a w przerwie zimowej 0,53. Tyle, że PDO jest mniej powtarzalne w przeciągu sezonu od TSR. Zgodnie z teorią, PDO z początku sezonu powinien mieć niższe przełożenie na wartości z późniejszych gier niż TSR. I ma: R-kwadrat w tym sezonie po 5. i 19. kolejce ma R-kwadrat 0,33. Zatem pod tym względem teoria oparta o dane głownie z Premiership potwierdza się i u nas. PDO również ma słabszą powtarzalność z sezonu na sezon: R-kwadrat między PDO na koniec poprzedniego sezonu a obecnym to 0,3 (naturalnie liczone bez spadkowiczów i beniaminków).
DRUŻYNA | TSR 2014/15 | TSR 2013/14 | PDO 2014/15 | PDO 2013/14 |
---|---|---|---|---|
Cracovia | 0.54 | 0.51 | 847 | 939.7 |
Górnik Zabrze | 0.45 | 0.5 | 1036.8 | 1004.6 |
Jagiellonia Białystok | 0.47 | 0.47 | 1090.1 | 1064.2 |
Korona Kielce | 0.48 | 0.45 | 905.2 | 983.3 |
Lech Poznań | 0.63 | 0.6 | 988.3 | 1039.6 |
Lechia Gdańsk | 0.54 | 0.53 | 926 | 1017.4 |
Legia Warszawa | 0.54 | 0.59 | 1136.3 | 1067.8 |
Piast Gliwice | 0.41 | 0.47 | 1118.4 | 976.9 |
Podbeskidzie | 0.46 | 0.47 | 1083.2 | 996.8 |
Pogoń Szczecin | 0.51 | 0.48 | 982.9 | 1032 |
Ruch Chorzów | 0.4 | 0.48 | 999.5 | 1019.1 |
Śląsk Wrocław | 0.57 | 0.57 | 1053.8 | 982.5 |
Wisła Kraków | 0.55 | 0.41 | 1035.3 | 1107.8 |
Zawisza Bydgoszcz | 0.51 | 0.54 | 780.5 | 948.5 |
Podsumowując, TSR i PDO wydają się mniej użyteczne do stawiania prognoz dla Ekstraklasy niż dla Premieship. Być może to wina małego zasobu danych, a być może specyfiki naszej ligi. Niemniej, da się z tych wskaźników wycisnąć coś więcej. Ale o tym w kolejnym tekście.
~ fid