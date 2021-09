Analyse großer Sportdatensätze mit dem scikit-learn-Package Jenseits der Taktiktafel David Kliment, Prof. Dr. Christian Leubner Fußballspiele werden heute automatisiert erfasst, in kleinste Spielzüge zerlegt und die Daten mit Dutzenden ergänzenden Merkmalen angereichert. Mit scikit-learn gelingen erstaunlich genaue und komplexe Machine-Learning-Analysen auch mit geringem Programmieraufwand in Python.

iX-tract Anbieter wie StatsBomb ermöglichen den Zugriff auf riesige und sehr detaillierte Datensätze zu Sportereignissen aller Art.

Dank offener Schnittstellen können individuelle Analysen mit Python und scikit-learn trotz relativ geringer Vorkenntnisse erstellt werden.

Selbst hochkomplexe Methoden wie die Vorhersage von Spielergebnissen mit dem Random Forest sind möglich.

Spielerscouting durch den Vergleich individueller Eigenschaften gelingt über die Princial Component Analysis ebenfalls mühelos.

Zehn Spieler können innerhalb von zehn Minuten mit nur drei Bällen über sieben Millionen Datenpunkte erzeugen“, erklärte Oliver Bierhoff, Manager der Nationalmannschaft, schon 2014 im Rahmen der Fußball-WM der Männer in einer gemeinsamen Presseerklärung von DFB und SAP. Zahlen, Daten und Fakten sollten schon damals zu besseren Trainingsergebnissen und einer optimalen Vorbereitung auf kommende Gegner führen: Zumindest bei der WM 2014 schien das geklappt zu haben, in den Folgejahren konnte wohl auch die Datenanalyse die deutsche Nationalmannschaft nicht retten – das ist aber eine andere Baustelle.

Im Bereich der Datenerfassung und -vermarktung haben sich inzwischen spezialisierte Unternehmen etabliert. Der Anbieter StatsBomb vertreibt unterschiedliche Datensätze und Analysen in einem kostenpflichtigen Angebot. Für die ersten Schritte und um ein Gefühl für den Aufbau und die Detailtiefe der erfassten Daten zu bekommen, bietet sich aber das kostenfreie Angebot von StatsBomb auf GitHub an (Link zum Datensatz: ix.de/zc2j). Dieses beschränkt sich auf Spieldaten des FC Barcelona in unterschiedlichen Wettbewerben. Für die erste Division der spanischen Liga, kurz La Liga genannt, sind Spieldaten von der Saison 2003/2004 bis zur Saison 2018/2019 verfügbar, die einen guten Eindruck von den Analysemöglichkeiten vermitteln.