College Football hat sich in den letzten zwei Jahrzehnten zu einer der beliebtesten und meistverfolgten Sportarten in den USA entwickelt. Trotz des enormen Interesses gab es lange Zeit eine große Lücke hinsichtlich verfügbarer historischer Play-by-Play-Daten aus der früheren Spielzeit, insbesondere aus der Zeit vor 2014. Für Fans, Analysten und Statistiker reicht es nicht mehr aus, lediglich Endergebnisse oder einfache Statistiken zu betrachten – es ist das Verfolgen jedes einzelnen Spielzugs, das tiefe Einblicke und weitergehende Analyse ermöglicht. Genau an diesem Punkt setzt die Schaffung eines Play-by-Play-Datensatzes für die College Football Saison 2007 an und öffnet Türen für neue Forschungen und spannende historische Vergleiche.Die Motivation, solch einen Datensatz zu erstellen, entstand hauptsächlich aus dem eigenen Wunsch, die Leistungen von Quarterbacks aus der BCS-Ära mit den modernen Stars im Zeitalter der fortgeschrittenen Statistik zu vergleichen.
Während Daten für die neueren Spielzeiten meist problemlos vorhanden sind, stellte sich heraus, dass zuverlässige und detailreiche Play-by-Play-Daten aus der Saison 2007 kaum zu finden sind. Die gängigen Tools und Pakete wie cfbfastR, die heute für den Datenabruf genutzt werden, unterstützen leider keine Daten von vor 2014. Dies stellte eine große Herausforderung dar und zwang dazu, neue Wege zu finden, um auf diese wertvollen historischen Daten zuzugreifen.Die Lösung bestand im Einsatz der öffentlich zugänglichen API von ESPN, über die es möglich war, einzelne Spiele der Saison 2007 durch die Verwendung spezifischer Spiel-IDs abzurufen. Hierbei wurde bewusst nur ein einzelnes Spiel als Testfall verwendet, um die Größe der Datenanfrage zu begrenzen und den Umgang mit der Datenstruktur zu erleichtern.
Die gewonnenen Daten lagen im JSON-Format vor, welches als Ausgangspunkt für die weitere Datenbearbeitung diente. Der Übergang von rohen JSON-Daten zu einem strukturierten Datensatz erforderte präzises Mapping der Inhalte auf ein standardisiertes Schema, das dem von modernen Play-by-Play-Datensätzen wie aus cfbfastR ähnelt.Mithilfe von Python und Bibliotheken wie pandas war es möglich, die Werte aus dem JSON umzuwandeln und in ein CSV-Format zu exportieren, das kompatibel mit gängigen Analysetools ist. In dem erzeugten Datensatz wurden essentielle Felder abgebildet, einschließlich Spieljahr, Spielwoche, Spiel- und Drive-Nummern, beteiligte Teams, Spielstand, Uhrzeit im Spiel, Spielzugtyp, Textbeschreibung des Spielzugs, Down- und Distanzangaben sowie Ergebnisse einzelner Drives. Diese granularen Daten bilden die Grundlage für jede weiterführende Analyse, da sie das gesamte Spielgeschehen in chronologischer Reihenfolge erfassen.
Ein Manko stellte jedoch das Fehlen der üblichen fortgeschrittenen Kennzahlen dar. Erwartete Punkte (Expected Points, EP), Erwartungswert vor und nach dem Spielzug (EP_before, EP_after), Gewinnwahrscheinlichkeiten (Win Probability, WP) und ähnliche Metriken waren im ursprünglichen ESPN-Datensatz nicht enthalten. Diese Werte sind aber unverzichtbar, um den tatsächlichen Einfluss einzelner Spielzüge auf den Spielausgang zu bewerten und somit fundierte Vergleiche von Spielern und Teams zu ermöglichen.Die Berechnung solcher erweiterten Statistiken erfordert Modelle, die auf umfangreichen historischen Daten basieren, um die wahrscheinlich zu erwartenden Punkte oder Siegchancen eines Teams in einer bestimmten Spielsituation zu bestimmen. Für NFL-Daten bietet das Paket nflfastR eine zuverlässige Möglichkeit, solche Berechnungen automatisiert durchzuführen.
Auch wenn es für College Football nicht spezifisch angepasst ist, kann es mit Vorsicht auf Daten der College Football Saison angewandt werden, um zumindest Annäherungswerte zu schaffen. So entsteht eine kombinierte Analyse, die auf den verfügbaren Rohdaten fußt und durch Modellberechnungen ergänzt wird.In der Praxis bedeutet dies, dass man zunächst die Spielzuginformationen wie Feldposition, Down und Distanz in das Modell einspeist, um eine Einschätzung der erwarteten Punkte vor und nach dem jeweiligen Spielzug zu erhalten. Die Differenz dieser Werte ergibt die expected points added (EPA), eine zentrale Metrik für die Bewertung der Spielzüge. Das Hinzufügen dieser Spalte zum Datensatz bringt die Möglichkeit, die Leistung einzelner Spieler, insbesondere Quarterbacks, sehr viel genauer zu bewerten, da die reine Statistik von Yards und Touchdowns nicht immer die tatsächliche Spielwirksamkeit abbildet.
Ein besonderer Fokus lag auf der Analyse von Colt Brennan, dem Quarterback der University of Hawai’i während der Saison 2007. Die WAC, ein damals noch existierender Zusammenschluss von College-Teams, wurde seinerzeit von der Rainbow Warriors dominiert. Brennan und sein Team schufen Erinnerungen, die auch heute noch unter Fans als magisch gelten. Besonders bemerkenswert ist, wie Spiele zu späten Stunden übertragen wurden – ein Zeichen für die wachsende nationale Aufmerksamkeit und Beachtung, die der College Football bereits damals hatte.Der Vergleich von Brennans EPA pro Dropback mit den Top-10-Quarterbacks der Saison 2024 ermöglichte nicht nur den Blick zurück, sondern zeigen auch, wie sich das Spiel und die Bedeutung von statistischen Modellen zu Spielerleistungen verändert haben.
Die Erkenntnisse erlauben es, die historische Bedeutung eines Spielers in einen modernen Kontext zu setzen. Spielen wie die von Brennan können so besser gewürdigt und analysiert werden. Zudem wird die Entwicklung des Spielstils und der Effizienz von Spielern über Jahrzehnte nachvollziehbar.Das Erstellen eines solchen Datensatzes ist auch ein faszinierendes Beispiel für die Herausforderungen und Möglichkeiten, die mit historischen Daten in der Sportanalyse einhergehen. Oftmals sind relevante Daten nicht digital oder liegen verstreut in verschiedenen Formaten vor.
Die Verbindung von manueller Datensammlung, moderner Skriptprogrammierung und der Verwendung von bestehenden Modellen und Paketen zeigt den interdisziplinären Charakter sportwissenschaftlicher Untersuchungen.Für die Community bietet solch ein Datensatz auch einen doppelten Mehrwert. Zum einen können Fans und Analysten tiefere Einblicke in Spielzüge und strategische Entscheidungen erhalten. Zum anderen eröffnen sich für Forscher neue Wege, Performance-Daten aus unterschiedlichen Epochen zu harmonisieren und so zu vergleichbaren Kriterien zusammenzuführen. Dadurch können Veränderungen im Spielverlauf, in der Effektivität von Spielzügen und der Spielerentwicklung über längere Zeiträume untersucht werden.
Die Wiederentdeckung und Aufarbeitung vergangener Spielzeiten vermitteln somit nicht nur historische Statistiken, sondern erzählen Geschichten vom Wandel des Sports selbst.Im Gesamtbild unterstreicht die Erstellung des Play-by-Play-Datensatzes für die College Football Saison 2007, wie wertvoll und faszinierend es sein kann, Daten vergangener Zeiten zu erforschen. Trotz technischer Hürden und der fehlenden direkten Verfügbarkeit solcher Daten öffnet die Verbindung zwischen modernen Programmieransätzen und traditionellen statistischen Modellen neue Dimensionen der sportlichen Analyse. Die Projektion von Daten zurück in die Vergangenheit schafft eine Brücke zwischen Generationen von Spielern und Fans und fördert die Wertschätzung für herausragende Leistungen im College Football, unabhängig davon, zu welcher Zeit diese erbracht wurden.Abschließend bleibt festzuhalten, dass das Vorhaben nicht nur die Historie des College Football bereichert, sondern auch als Inspirationsquelle für weitere Datenleute und Sportbegeisterte dient, sich intensiv mit der Aufbereitung und Analyse von Sportdaten auseinanderzusetzen.
Die gewonnenen Erkenntnisse helfen dabei, Erinnerungen lebendig zu halten und den Fußball der Vergangenheit in das Licht moderner Bewertungssysteme zu stellen. So trägt der Play-by-Play-Datensatz 2007 dazu bei, sowohl die Geschichte als auch die Zukunft des College Footballs besser zu verstehen und wertzuschätzen.