Wissen

Torschüsse – Das Salz in der Suppe

Welche Statistiken haben einen Einfluss auf die Gewinnwahrscheinlichkeit in der Bundesliga?

Technologie & Equipment
Julian Brandt schießt im Sechzehnmeter Raum durch vier Gegenspieler aufs Tor beim EM Qualifikationsspiel gegen Nordirland in Frankfurt. © 2019 PHILIPPREINHARD
    • Individuelle Fehler die zu einem Torschuss führen haben den größten Einfluss (negativ) auf die Gewinnwahrscheinlichkeit.
    • Die Anzahl der Torschüsse (insbesondere Torschüsse nach einem Konter), die Torschusseffizienz sowie der Marktwert erhöhen die Gewinnwahrscheinlichkeit.
    • Der Heimvorteil ist hier noch präsent, fällt jedoch im Vergleich zu früheren Studien geringer aus.
Abstract

Aus den Datenmassen der automatisierten Spielanalyse diejenigen Faktoren oder Variablen herauszufiltern, die bedeutsam sind und einen Einfluss auf den Spielausgang haben, ist gleichzusetzen mit einem Wissensvorsprung. Bisher wurden Erklärungsmodelle oftmals für die anderen großen europäischen Ligen aufgestellt. Auch wurde der Marktwert und der Umstand, ob es sich um ein Heim- oder Auswärtsspiel handelt, selten berücksichtigt. Die hier zusammengefasste Studie erkundet, welche Faktoren einen besonderen Einfluss auf den Spielausgang haben. Die Studienautoren haben sich in ihrer Analyse 25 spiel- und vier kontextbezogene Variablen näher angeschaut. Es stellte sich heraus, dass Schüsse nach Konter, Torschusseffizienz und der Marktwert einen besonders positiven Einfluss auf die Gewinnwahrscheinlichkeit haben. Hingegen verringert sich die Gewinnwahrscheinlichkeit, wenn die Anzahl der individuellen Fehler und Flanken steigt. Zusätzlich konnte der positive Effekt des Heimvorteils nachgewiesen werden (Untersuchungszeitraum erlaubte Zuschauer), wenngleich niedriger als in anderen Studien. Die Studie bringt etwas Licht in den Datendschungel und zeigt welche Faktoren oder Variablen bedeutsam für den Spielausgang sein können und welche weniger Einfluss ausüben.

Die Idee

Das im Fußball umfänglich Daten aufgezeichnet und analysiert werden, ist erst einmal nichts Neues. Allgemeine Statistiken können über Internetportale, wie hier für die Bundesliga, abgerufen und inspiziert werden. Allein für ein Spiel ergeben sich riesige „Berge von Ereignisdaten“ – Spielereignisse wie Pässe, Torschüsse, Dribblings oder Zweikämpfe – die von offiziellen Datenanbietern gesammelt und anschließend zu Durchschnittswerten zusammengestampft werden. Für die FIFA Fussball-Weltmeisterschaft 2014 konnte bereits gezeigt werden, dass die meisten der 24 erhobenen Durchschnittswerte/Variablen einen Einfluss auf das Spielergebnis haben können [1]. Sportwissenschaftler des Karlsruher Institut für Technologie haben nun auch für die Bundesliga eine ähnliche Studie durchgeführt. Für die Bundesliga gab es bis dahin nach Lepschy und Kollegen [2] nur wenige Veröffentlichung, die sich mit diesem Thema beschäftigten und mehr als 10 Variablen verwendeten. Unklar ist also, welche Bedeutung diese Statistiken für den Spielausgang haben. Die Autoren gehen noch ein Schritt weiter und verwenden zusätzlich kontextbezogene Informationen, wie den Marktwert und den Heimvorteil, um den Spielausgang zu erklären – Positionsdaten als höchste Detailstufe der Datenerhebung von Fußballspielen, wie in vorherigen Artikeln beschrieben, werden in dieser Studie jedoch nicht berücksichtigt.

Die Datenbasis

Der Datenbestand umfasst drei Saisons (918 Spiele, 2014/15 bis 2016/17), in denen 25 spielbezogene Variablen (Ereignisdaten) und vier kontextbezogene Variablen wie Heimvorteil oder Marktwert erhoben werden (TAB. 01). Zusätzlich wird erfasst wie das Spiel ausgegangen ist. Der Erfolg wird demnach daran gemessen, ob ein Spiel gewonnen, verloren oder unentschieden ausgeht. Für eine bessere Vergleichbarkeit gruppierten die Autoren den Datensatz in „knappe“ (Tordifferenz ≤ zwei, N = 774 Spiele) und “nicht knappe“ Spiele (Tordifferenz > zwei, N = 144 Spiele).

Wie wurde analysiert?

In einer ersten Analyse wurde überprüft, ob sich die ausgewählten 29 Variablen zwischen Heimspielen und Auswärtsspielen unterscheiden. Beispielsweise wurde unter anderem geschaut, ob Heimmannschaften im Durchschnitt mehr „shots on target“ also Schüsse auf das Tor produzieren als Auswärtsmannschaften. Im zweiten Schritt wurde überprüft, ob und wie hoch der Einfluss einer der 29 Variablen auf den Spielausgang ist. Die Forschergruppe präsentiert anschließend die Ergebnisse für die gewonnen Spiele separat für die Heim- und Auswärtsmannschaft.

Die Autoren kommen anhand ihrer ersten Analyse zu dem Schluss, dass Heimmannschaften mehr offensive Ereignisse (u. a. Torschüsse insgesamt, Torschüsse auf das Tor, Flanken) produzieren als Auswärtsmannschaften. Zudem gewinnen sie auch mehr Zweikämpfe. Auswärtsteams hingegen produzieren eine höhere Anzahl an Fouls, mehr Fehler in der Defensive und mehr Klärungsversuche. Diese Ergebnisse kommen aus Vergleichen von Mittelwerten. Beispielsweise klären Auswärtsmannschaften im Durchschnitt 23,20 mal den Ball, hingegen kommen Heimmannschaften im Schnitt auf 20,02 Defensivaktionen bei denen der Ball ohne erkennbaren Empfänger weggespielt wird. Zusammenfassend ein Anzeichen dafür, dass der Heimvorteil wohl noch präsent ist. Eine Studie aus dem Jahr 1995 beziffert den Heimvorteil mit einer Tordifferenz von +0.5 Toren [3]. Die hier angegebene Tordifferenz ist mit +0.36 etwas niedriger. Interessant sind sicherlich Analysen zum Heimvorteil unter Beachtung der Corona-Krise (Bericht Deutschlandfunk).

Welche Variablen haben einen Einfluss auf den Spielausgang?

In dem statistischem Modell, der zweite Schritt der Analyse, ist der Heimvorteil auch eine signifikante Einflussgröße. Den höchsten Einfluss der spielbezogenen Variablen zeigte allerdings die Kenngröße „defensive errors“ also individuelle Fehler in der Abwehr. Für eine Heimmannschaft verringert sich laut den Autoren die Gewinnwahrscheinlichkeit um ca. -10 % und für Auswärtsmannschaften um ca. -8 %. Laut Definition der Datenanbieter sind individuelle Fehler in der Defensive immer verbunden mit einem gegnerischen Torschuss. Das erklärt dann auch den hohen Einfluss der Variable auf den Spielausgang. Weiterhin wird deutlich, dass die Variable „Toreffizienz“, auch als Torquote bekannt, einen großen Einfluss auf die Gewinnwahrscheinlichkeit hat. Die Forscher geben an, dass eine Erhöhung der Torquote um ein Prozent, die Siegeswahrscheinlichkeit um ca. 2% erhöht. Zusätzlich haben fast alle Torschuss-Variablen (siehe TAB.01) einen Einfluss auf die Gewinnwahrscheinlichkeit.
Der Marktwert hat ebenfalls einen signifikanten Einfluss auf die Gewinnwahrscheinlichkeit mit 0,03 % (Heim) und 0,05 % (Auswärts), wird aber bei den weniger einflussnehmenden Variablen gelistet. Die Autoren geben an, dass die Spanne zwischen der Mannschaft mit dem geringsten Marktwert und der Mannschaft mit dem höchsten Marktwert mehr als 400 Millionen Euro betrug. Nimmt man dann für die Differenz des Marktwerts der Startaufstellung zweier Teams 200 Millionen Euro an, dann erhöht sich die Gewinnwahrscheinlichkeit für eine Heimmannschaft allerdings schon um 6 %.
Eine höhere Anzahl an Flanken („crosses“) vermindern wiederum die Gewinnwahrscheinlichkeit unabhängig davon, ob zu Hause oder Auswärts gespielt wurde. In der Vergangenheit konnte ebenfalls gezeigt werden, dass eine höhere Anzahl an Flanken und auch lange Pässe die Gewinnwahrscheinlichkeit negativ beeinflussen [2, 4 ,5]. Die Variablen Ballbesitz, mittleres Alter der Startformation und die mannschaftliche Laufdistanz hatten in dieser Studie keinen Einfluss auf die Gewinnwahrscheinlichkeit.

Eine Tabelle zeigt eine Übersicht der verwendeten Variablen und deren Einfluss auf die Gewinnwahrscheinlichkeit in der Bundesliga.
Was ist der praktische Nutzen?

Zusammenfassend halten die Studienautoren fest, dass ihr Modell mehrere bedeutsame Variablen aufdeckt. Variablen mit dem größten Einfluss auf die Gewinnwahrscheinlichkeit sind „Fehler in der Defensive“ (negativer Einfluss), „Torschusseffizienz“, „Gesamtanzahl der Schüsse“ und „Anzahl der Schüsse auf das Tor“. Danach folgen die Anzahl der Flanken (negativer Einfluss) und der „Marktwert der Startaufstellung“. Interessanterweise hat der „Ballbesitz“ und das „mittlere Alter der Spieler in der Startformation“ keinen Einfluss auf die Gewinnwahrscheinlichkeit. Da die Torschusseffizienz in dem Modell eine tragende Einflussgröße darstellt, empfehlen die Autoren den Fokus im Torschusstraining mehr auf die Genauigkeit als auf die schiere Anzahl der Wiederholungen zu legen. Qualität vor Quantität sozusagen. Zusätzlich zeigt die Analyse aber auch die Gefahren von individuellen Fehlern in der Abwehr auf, die die Gewinnwahrscheinlichkeit am stärksten negativ beeinflussen. Abwehrspieler und Torspieler sollten dahingehend trainiert werden, diese Fehler zu minimieren.

Mögliche Kritikpunkte?

Mögliche Kritikpunkte?Grundsätzlich verhält es sich in der Statistik so, dass Hypothesentests bei großen Stichproben auch bei kleinen, minimalen Unterschieden anschlagen. Daher ist Vorsicht geboten bei der Interpretation von signifikanten Ergebnissen bei großen Stichproben. Die Autoren weisen auch daraufhin, dass der Marktwert kein standardisierter Wert ist, der irgendwo abgelesen oder gemessen werden kann. Weiter erklären statistische Modelle bestimmte Ereignisse, hier der Spielausgang, nur zu einem gewissen Anteil. Einen höheren Erklärwert könnte eine Modellerweiterung bieten. Metriken wie „expected goals“, „packing“ oder „Raumkontrolle“ sind hier mögliche Kandidaten.
Während die Miteinbeziehung spielunabhängiger Daten (z. B. Marktwerte) ein neuartiger Ansatz ist, fehlt es Auswertungen, die ausschließlich auf Ereignisdaten basieren, in der Regel an Kontext. Ereignisdaten beschreiben lediglich die Aktion des Spielers mit Ball, wohingegen Positionsdaten die Spielerpositionen aller 22 Spieler zu mehreren Zeitpunkten pro Sekunde beinhalten – sämtliche Pässe, Zweikämpfe und Schüsse können dadurch mit mehr Kontextinformationen (z. B. Positionierung der Gegner) ausgewertet werden.

Die Inhalte basieren auf der Originalstudie "Success factors in football: an analysis of the German Bundesliga.", die 2020 im „International Journal of Performance Analysis in Sport" veröffentlicht wurde.

Literatur

  1. Lepschy, H., Wäsche, H., & Woll, A. (2020). Success factors in football: an analysis of the German Bundesliga. International Journal of Performance Analysis in Sport, 20(2), 150-164.
    Studie lesen
    1. Liu, H., Gomez, M.-Á., Lago-Peñas, C., & Sampaio, J. (2015). Match statistics related to winning in the group stage of 2014 Brazil FIFA World Cup. Journal of Sports Sciences, 33(12), 1205–1213.

      Studie lesen
    2. Hannes Lepschy, Hagen Wäsche & Alexander Woll (2020) Success factors in football: an analysis of the German Bundesliga, International Journal of Performance Analysis in Sport, 20(2), 150-164.

      Studie lesen
    3. Clarke, S., & Norman,J. (1995). Home ground advantage of individual clubs in English soccer. The Statistician, 44, 509-521.

      Studie lesen
    4. Lago-Peñas, C., Lago-Ballesteros, J., Dellal, A., & Gómez, M. (2010). Game-related statistics that discriminated winning, drawing and losing teams from the Spanish soccer league. Journal of Sports Science & Medicine, 9(2), 288–293

    5. Reis, M. A. M. D., Vasconcellos, F. V. D. A., & Almeida, M. B. D. (2017). Analysis of the effectiveness of long distance passes in 2014 Brazil FIFA World Cup. Revista Brasileira De Cineantropometria & Desempenho Humano, 19(6), 676–685.

      Studie lesen