Manchester City vraagt de analytics community om hulp bij data-analyse

Via een blogpost van Jules Stuifbergen werd ik onlangs gewezen op een wel heel bijzonder data project van voetbalclub Manchester City. Zij maken namelijk alle beschikbare wedstrijd- en spelerstatistieken openbaar en vragen de community om mee te helpen met het duiden van de data.

This data is designed to be broken down, analysed, graphed and visualised however you see fit. We have made it available to encourage and inspire the next level of analytics.

Sportstatistiek verandert het spel

Amerika is de bakermat van de sportstatistiek. In de vroege jaren zeventig was Bill James de eerste die op een wetenschappelijke manier (gebaseerd op statistische data) naar honkbal ging kijken. Hij wordt nog altijd beschouwd als de grondlegger van de sportstatistiek. Het gebruik van statistieken in de honkbalwereld is enkele decennia later niet meer weg te denken en heeft zich ook daadwerkelijk bewezen. Kijk maar naar het baanbrekende verhaal van de Oakland A’s opgetekend in het beroemde boek Moneyball (recentelijk ook verfilmd).

Manchester City voorloper in gebruik Big data

Waar het gebruik van statistieken in de honkbalwereld dus de normaalste zaak van de wereld is, geldt dat niet voor de conservatieve voetbalwereld. Hier zie je eigenlijk pas de laatste jaren interesse komen voor dit onderwerp. Manchester City is daarin wel een club die voorop loopt. Zij herbergen inmiddels een complete afdeling met analisten die elke balaanname, passing en loopactie van haar spelers bestudeerd. En niet alleen van het eerste elftal, zelfs de onder 9 teams worden geanalyseerd. Via speciale werkstations hebben alle spelers 24 uur na de wedstrijd alle gegevens over hun performance beschikbaar.

Het is nu tijd voor een nieuwe stap, een grote sprong voorwaarts aldus Gavin Fleig, hoofd Performance Analysis bij Manchester City. Er moet een datacultuur komen in Engeland, zoals die in Amerika reeds bestaat. En daarvoor roept City de hulp in van het publiek. Iedereen die wil, kan zich nu storten op enorme datasets en samenwerken met de analisten van Manchester City om tot nieuwe, baanbrekende inzichten te komen.

“I don’t want to be at another analytics conference in five years’ time talking to people who would love to analyse the data but cannot develop their own concepts because all the data is not publicly available.” – Gavin Fleig

Big data gratis beschikbaar

Manchester City maakt alle data die ze beschikbaar heeft over het afgelopen seizoen, en waarvoor de club een klein fortuin neerlegt, openbaar. De volgende informatie is dus nu voor iedereen beschikbaar:

  • Elk ‘on the ball’ event voor elke Premier League speler in elke wedstrijd van het seizoen 2011-2012 (10.370 rijen, 185 kolommen in .csv formaat).
  • Een tijdgecodeerde datafeed in XML formaat met elke actie van een speler binnen de wedstrijd, event type, tijdsregistratie (minuut/seconde) van de actie en de x/y/z coördinaten van de plek op het veld waar deze actie is geregistreerd. Deze data is alleen beschikbaar van de Manchester City spelers.

Een enorme hoeveelheid data dus waar iedereen nu in kan grasduinen. De analisten van Manchester City geven zelf aan bijzonder veel interesse te hebben in de bevindingen van ‘de community’ over onderstaande onderwerpen:

1. Wat zijn ‘positie specifieke’ metrics die de performance van een speler in kaart kunnen brengen en waarmee spelers ook ten opzichte van elkaar te vergelijken zijn?

2. ‘Seasonal player profiling’

3. Data visualisatie

Zelf meedoen?

Mocht je het leuk vinden om je steentje bij te dragen dan kun je jezelf aanmelden via de website van Manchester City en krijg je de datasets per mail toegestuurd. Hier de link.

Who is the data for? Everyone and anyone. Students – use it for your dissertation work; Bloggers – use it to write your analytics articles; Statisticians – use it to identify new modelling techniques; arm-chair enthusiasts – use it to prove your mates wrong!

Ik vind dit persoonlijk echt een geweldig gewaagd en vernieuwend initiatief en ben erg benieuwd met welke spectaculaire inzichten ‘de community’ op de proppen komt. Laat de Nederlandse clubs ook maar over de brug komen met de data en dan maken we onze favoriete club kampioen!

Reacties (4)

  1. bram@marketingfacts.nl'

    Hoi Egan, goeie actie van ManCity idd!

    Ken je trouwens “Dure spitsen scoren niet” (http://www.bol.com/nl/p/dure-spitsen-scoren-niet/9200000002274759/)? Is de Europese/voetbal-variant op Moneyball. Erg leuk, met o.a. uitleg over waarom Chelsea in 2008 de Champions League had moeten winnen (Van der Sar dook altijd naar zijn rechterkant, toch schoot Anelka z’n penalty naar die hoek).

    Toch ook een kanttekening bij de bruikbaarheid van data door de tijd heen. Zo gaat er in het Amerikaanse basketbal nu een discussie wie beter was: Michael Jordan of Kobe Bryant. Zie bijv. fraaie interactieve infographic hier: http://www.latimes.com/sports/la-sp-bryant-vs-jordan-i,0,5279814.htmlstory.

    En toch zullen veel mensen het erover eens zijn dat Michael Jordan de beste was. Ze zullen argumenten aanhalen als “hij maakte zijn teamgenoten beter”, etc. Zelfs die dingen zijn uiteindelijk meetbaar, waarschijnlijk. Wat minder makkelijk te vangen is: wie betekende meer voor de sport? Zelf denk ik dat MJ daar beter scoort. Maar… I don’t have the data to back that up! 🙂

  2. grathenau@gmail.com'

    Gave blog Egan. Ik denk, dat hier in iedere sport nog meer uit te halen valt.

    Ik ben zelf een fanatiek golfer en daar ligt de data voor het oprapen. Ik ben wel benieuwd of Manchester City met een attributie model bezig is. Wat is de invloed van een verdediger/middenvelder/buitenspeler/spits op het uiteindelijke resultaat.

    Weet iemand of hier al modellen voor opgezet zijn?

  3. eganvandoorn@gmail.com'

    Bram, Jules en Gerard. Dank voor jullie reacties, informatie en aanvullende links. Erg interessant allemaal!

Reacties zijn gesloten.