Wins Above Replacement - Teil 1: RAPM

Wie viel ist ein Spieler wirklich wert?

Nov 02, 2021

Diese Serie befasst sich mit dem Wins Above Replacement Modell von 5 plus Spieldauer. Ich versuche, mich mit den technischen Details so sehr wie möglich zurückzuhalten. Einerseits, weil diese nicht notwendig sind um die generellen Konzepte von WAR zu verstehen. Andererseits weil diese an anderer Stelle schon zur Genüge im Detail erklärt wurden. Für diejenigen, die genauer nachlesen oder eventuell sogar selbst nachbasteln wollen, werde ich versuchen an den jeweiligen Stellen Links zu entsprechenden Quellen zu posten.1

Wins Above Replacement, kurz WAR, dient dazu, den Wert eines Spielers in einer Zahl zusammenzufassen und diesen einerseits in einer Einheit zu verpacken, mit dem Spieler, Trainer, Funktionäre und Fans etwas anfangen können (Wins, also Siege2) und andererseits gegen ein gewisses Spielerniveau anzusetzen, das als “ersetzbar” gilt. Wins Above Average wäre ein sehr ähnlich berechenbarer Wert, ein Vergleich zum Ligadurchschnitt hat allerdings den Nachteil, dass ein durchschnittlicher DEL-Spieler ja keineswegs leicht zu bekommen ist. Die Idee des Replacement Levels ist es, ein Spielerniveau zu fixieren, das ein Team theoretisch leicht beschaffen kann. Sei es beispielsweise aus dem eigenen Nachwuchs oder auf dem Spielermarkt. Aber dazu später mehr, wenn es explizit ums Replacement Level geht.

Zunächst ein paar Worte zur Zielsetzung:

Was wollen wir eigentlich messen?

Im Grunde lassen sich zwei unterschiedliche Ziele abstecken.

Die erbrachte Leistung möglichst genau beschreiben
Das gegenwärtige Niveau eines Spielers möglichst genau beschreiben

Nun stehen diese beiden Ziele manchmal in Konkurrenz zueinander. Möchte ich die aktuelle Leistung beschreiben, macht es zum Beispiel Sinn, den tatsächlich gefallenen Toren viel Wert zuzuschreiben. Machen wir ein Beispiel:

Ein Spieler schiesst 20 Tore und hat eine Schussquote von 20+%, hatte aber nur 12 Expected Goals. Wenn ich seine Saison isoliert beurteilen würde, müsste ich sagen: Sehr gut. Viele Tore geschossen, super Sache.
Aber wenn ich nun gefragt werde, wie ich die Qualität dieses Spielers einschätzen würde, müsste ich die >20% Schussquote und den enormen Unterschied zwischen Toren und Erwarteten Toren kritisch sehen. Es ist eher unwahrscheinlich, dass er nochmal so effizient trifft. Also ist er wahrscheinlich kein echter 20-Tore-Spieler.

Das Ziel meines WAR-Modells liegt zwischen diesen beiden Polen. Natürlich bin ich interessiert daran, die Leistungen von Spielern zu würdigen. Ich sehe allerdings nicht ein, nicht wiederholbare Ausbrüche so zu würdigen, als würden sie das neue Niveau des Spielers widerspiegeln. Ich will ein Modell basteln, das sowohl die Frage “Wer hatte die beste Saison?” als auch “Wer ist der beste Spieler” mit einem vernünftigen Fehlerbalken beantworten kann. Manchmal, wie beispielsweise Connor McDavid 20/21, überschneiden sich die Antworten dieser Fragen, aber sehr häufig auch nicht.

Mit diesem Ziel im Hinterkopf gehen wir an das WAR-Modell, den Start macht der Kern des Modells: Die Impactberechnung bei 5v5.

Warum nicht einfach CF%?

Was sind die typischen Argumente gegen die Nutzung von Statistiken wie Corsi oder Expected Goals?

Das ignoriert ja gegen wen man spielen muss, der ____ is ja immer gegen die Topspieler des Gegners aufm Eis
Das ignoriert ja den Kontext, der ____ muss ja immer für die Bullys im Defensivdrittel aufs Eis
Aber der ____ spielt ja immer mit ________ zusammen. Da hätte ja sogar ich super Stats…

Und diese Beschwerden sind nicht zu ignorieren. Denn all diese Dinge werden beispielsweise in den Standard xGF% und CF% auf 5plusspieldauer.de nicht berücksichtigt. Auch die Rel-Statistiken helfen hier nicht viel weiter. Denn diese ermitteln lediglich, wie gut die Zahlen eines Spielers relativ zum Rest seines Teams sind.

Ein fiktives Beispiel: Elias Pettersson hat auf einmal Lust in meiner Hobbymannschaft mitzuspielen und will aber nur mit mir spielen. Also immer wenn ich aufm Eis bin, ist auch Elias Pettersson aufm Eis. Wenn ich jetzt anfange, die Expected-Goals-Verhältnisse unserer Spieler zu tracken, dann wird schnell auffallen, dass ich extrem viel besser dastehe als der Rest meines Teams. Genauso gut wie Elias Pettersson. Hat man nur diese Zahlen zur Verfügung, wäre es unmöglich zu ermitteln, ob jetzt ich oder Elias Pettersson für diese famosen Statistiken verantwortlich sind. Obwohl mit Sicherheit schon das Videomaterial eines einzelnen Wechsels klarmachen würde, wer hier der Trittbrettfahrer ist.

Das Beispiel ist natürlich übertrieben extrem, allerdings illustriert es den Nachteil der handelsüblichen Stats. Die gleiche Logik gilt natürlich auch für Gegner3. Aber was tun? Wie kann ich die individuelle Leistung von Spielern von ihren Mitspielern und Gegnern isolieren?

Soll Rettung kommen, so kommt sie nur so

Die üblichen Corsi- oder xG-Statistiken sind schlicht einfach nur die Spielanteile, wenn der Spieler auf dem Eis ist. Also einfach nur Corsi für Team A und Corsi für Team B, wenn z.B. Yasin Ehliz auf dem Eis ist. Wie berechnet man da die Mitspieler, Gegner, etc. mit ein?

(Sehr) grob gesagt: Man schmeisst einfach alles in eine grosse Regression. Soll heissen man schaut, wer bei jedem Wechsel auf dem Eis stand, wie viele Schüsse in dieser Zeit auf beiden Seiten vorkamen und versucht dann den Impact jedes Spielers abzuschätzen. Bei zwei Spielern ist das noch recht einfach:

Wechsel 1: A + B aufm Eis, 40s, 2 Schüsse
Wechsel 2: Nur B aufm Eis, 40s, 0 Schüsse
Wechsel 3: Nur A aufm Eis, 40s, 2 Schüsse

Da sollte klar sein, dass der Impact von Spieler A wohl eine Verbesserung um 2 Schüsse (pro 40s Eiszeit) ist. Das gleiche machen wir jetzt für alle Spieler der DEL. Dabei kommen ca. 190.000 einzelne Spielsequenzen zusammen (jedes Mal, wenn ein Spieler wechselt bzw. wenn das Spiel unterbrochen wird, beginnt eine neue Sequenz).

Für jede Sequenz wird die Länge in Sekunden (shift_length) und die Expected Goals (xgf) berechnet, das ganze schaut dann ungefähr so aus:

Dazu kommen anschliessend noch weitere Variablen, beispielsweise die Art der Sequenz (ist es eine Sequenz, die mit einem Bully startet und wenn ja, wo war das Bully und welches Team gewann es?).

Jede dieser Sequenzen kommt entsprechend zwei Mal vor. Denn wenn bspw. Mannheim in den ersten 40s eines Spiels 0 xG gesammelt hat, Wolfsburg aber 0.2, dann müssen wir den Mannheimer Spielern auf dem Eis offensiv 0 und defensiv -0.2 zuschreiben und den Wolfsburger Spielern offensiv +0.2 und defensiv 0. Denn uns interessiert sowohl der offensive als auch der defensive Impact eines jeden Spielers.

Auf diesen Datensatz lassen wir nun die Regression los. Mit Hilfe einer Ridge Regression (siehe hier ein Paper dazu von Brian MacDonald) können wir die Einflüsse der einzelnen Variablen berechnen und anschliessend auswerten.

Rettung, RAPM

Die Resultate der Regression sehen beispielsweise so aus:

Der xG For Impact ist der Netto-Einfluss eines Spielers relativ zum Ligadurchschnitt auf die Anzahl Expected Goals (pro 60 min.) seines eigenen Teams. Dank unserer Regression korrigiert für Mitspieler, Gegner und sonstige Umstände (wie Bullys/Fliegende Wechsel, etc.) . Entsprechend ist der xG Against Impact der Nettoeinfluss auf die gegnerischen Exp. Goals, wenn der Spieler aufm Eis ist.
Wir erwarten beispielsweise, dass Yasin Ehliz, wenn er dieses Jahr auf dem Eis war, ca. +0.77 Expected Goals pro 60 min für die Münchner Offensive mehr wert war als ein durchschnittlicher Spieler. Oder anders formuliert: Stellen wir Ehliz für 60 Minuten mit 9 anderen, komplett durchschnittlichen DELern aufs Eis, erwarten wir, dass Ehliz’ Team 0.77 xG mehr Offensive generiert als der DEL-Durchschnitt und 0.04 xG weniger4 zulässt.

Das ganze nennt sich in RAPM. Regularised Adjusted Plus-Minus5. Plus-Minus aus dem einfachen Grund, dass man den offensiven und defensiven Impact ja zusammenzählen kann, um den gesamten Impact zu bekommen (bei Ehliz beispielsweise +0.77 offensiv und -0.04 defensiv, macht + 0.81 xG pro 60 min).

Zusätzliches Wissen

Nun funktioniert das Modell so, dass jeder Spieler in jeder Saison von Null startet. Für gewisse Spieler ist das allerdings nicht unbedingt der sinnvollste Ansatz. Ist es beispielsweise fair, bei einem Spieler wie Yasin Ehliz den gleichen Ausgangspunkt anzunehmen wie bei einem beliebigen ECHLer, der neu in die Liga kommt? Meiner Meinung nach nicht.6
Daher “biasen” wir unser Modell, indem wir es darüber informieren, was wir über einige Spieler bereits wissen. Wir geben also den sehr guten Spielern der Vorsaison einen kleinen Bonus und den schlechten Spielern einen kleinen Malus. Unser Modell hat nun also “Vorurteile” über Spieler, die es schon aus vorherigen Saisons kennt.

Das wirkt sich hauptsächlich auf die Extrema aus:

Der Grossteil der Spieler befindet sich sehr nahe an der diagonalen Linie (auf welcher die Werte mit und ohne Bias gleich sind). Aus meiner Perspektive ist der Gewinn, der durch die Vorinformationen erzielt wird, deutlich grösser als der Verlust an Agilität (unser Modell ist durch die Vorurteile etwas träger, braucht etwas länger, um Änderungen in der Spielerleistung zu realisieren).

2020/21 waren die besten Spieler nach xG-Impact:

Damit hätten wir den ersten Schritt auf dem Weg zur Schätzung des Werts eines Spielers gemacht, nun wissen wir, wie gross der xG-Impact eines Spielers bei 5v5 in der Offensive und Defensive ist. Beim nächsten Mal geht es um die weiteren Komponenten.

Im Allgemeinen sind die Posts von Evolving Hockey sehr zu empfehlen. Die beiden haben sich sehr viel Mühe dabei gegeben, die Historie der WAR-Modelle in der Sportanalyse darzustellen, auf welchen natürlich auch meine Arbeit basiert.
Teil 1: Philosophy and Objectives
Teil 2: The Process
Teil 3: Replacement Level, Decisions, Results, and Final Remarks

Alternativ auch Tore (GAR - Goals Above Replacement) oder Tabellenpunkte (SPAR - Standings Points Above Replacement)

auch wenn es wesentlich schwerer ist, zu steuern gegen wen man spielt als mit wem man spielt

Bei den defensiven Impacts gilt es zu beachten, dass tiefere Werte besser sind als hohe, denn schliesslich geht es hier um den Einfluss auf des Gegners Expected Goals. Ehliz lässt also 0.04 xG weniger zu, sein Impact ist -0.04.

“Regularized” kommt von der mathematischen Methode der Regularisierung. Wer sich mit der Regularisierung auseinander setzen will, kann sich hier einen Überblick verschaffen: https://en.wikipedia.org/wiki/Regularization_(mathematics)

Hier kann man gut und gerne diskutieren. Die Herrschaften von Evolving Hockey vertreten beispielsweise die Meinung, dass diese Nutzung verfälscht und wollen lieber auf die reine Performance in einer Saison zurückblicken, ohne Vorwissen über gewisse Spieler zu nutzen.