„Oh Mann, mach ihn doch rein.“ Wer kennt das nicht, man fiebert live im Stadion oder auf der heimischen Couch mit seinem Lieblingsteam, das gerade versucht, ein wichtiges Match zu gewinnen oder die langersehnte Trophäe zu ergattern. Ja, und dann sitzt man da auf seinem Sitz oder im Sessel und würde am liebsten bei jeder brenzligen Situation selbst eingreifen. Der Puls rast und der Blutdruck verlässt langsam, aber sicher den grünen Bereich. Denn bei jeder vergebenen Großchance ruft man dem Spieler zu: „Mach ihn (den Ball) doch rein.“ Was für eine Aufregung, nur weil Predictive Analytics fehlen!
Dabei könnte man das Ganze auch etwas entspannter beziehungsweise analytischer angehen. Zwei meiner Kollegen, Robert Allison und Rick Wicklin, haben sich kürzlich mit der National Basketball Association (NBA) beschäftigt, denn dort werden schon seit Langem gezielt Daten zu Spielen und Spielern gesammelt. Einfache Statistiken wie die Drei-Punkte-Wurfquote oder die Anzahl der Rebounds, aber auch die genauen Lokationen, wo eine Spielsituation (zum Beispiel ein Wurf) stattgefunden hat, stehen zur Verfügung. Diese Daten können kostenlos heruntergeladen werden, wie im Beitrag von Robert Allison beschrieben. Das folgende Beispiel zeigt die Daten von Stephen Curry, dem derzeitigen Überflieger der NBA (Bericht im Spiegel vom 31.03.16), aber auch die Fans von Dirk Nowitzki können hier fündig werden. Bei den Daten handelt es sich um klassische Vergangenheitsdaten, also eine Aufzeichnung aller Spiele, bei denen Stephen Curry Treffer gelandet hat. Apropos Aktion, in den Daten gibt es beispielsweise 35 verschiedene „Wurf-Styles“, die im Englischen sehr cool klingen wie „Pullup Jump Shot“ oder „Running Finger Roll Layup Shot“. Mit all den Informationen lassen sich natürlich bunte Reports (siehe Screenshot) und deskriptive Statistiken erstellen, um damit die Trefferquote und andere Messwerte darzustellen.
Vom Hotspot zum Whitespot
Mit diesen Analysen wissen wir ganz genau, von welcher Position im Spielfeld Stephen Curry seine Wurfversuche abgesetzt hat, und ob diese auch am Ende das Ziel getroffen haben. Im nächsten Bild habe ich eine sogenannte Heatmap erstellt, um die Hotspots, also die Orte auf dem Spielfeld zu identifizieren, wo am häufigsten getroffen oder nicht getroffen wurde. Sie können sich vorstellen, dass sich direkt unter dem Korb am meisten abspielt – in der Darstellung sind das die dunkelblauen Stellen.
Im einfachen Vergleich von Treffer zu Nicht-Treffer lassen sich somit schon Aussagen ableiten, wo die höchste Trefferquote war. Natürlich kann man diese Erkenntnis auch so interpretieren, dass Herr Curry, wenn er es im nächsten Spiel genau an derselben Position versucht, höchstwahrscheinlich wieder treffen wird.
Interessanter sind jedoch die „Whitespots“, also jene Positionen auf dem Spielfeld, von denen wir keine Vergangenheitsdaten vorliegen haben – folglich die weißen Flecken in der Heatmap. Wenn wir wissen wollen, wie hoch die Trefferwahrscheinlichkeit für diese Positionen ist, stoßen wir in den Bereich der Vorhersagen, sprich prädiktiver Analytik vor. Achtung: Im Folgenden verlassen wir nun die Business Intelligence und bewegen uns hin zu Business Analytics.
Wer schon mal Basketball gespielt hat, der wird sich sicher daran erinnern, dass es einfacher ist, direkt unter dem Korb einen Ball zu versenken als von der Mittellinie aus. Es könnte demnach sein, dass die Distanz zum Korb ein wesentlicher Treiber für die Trefferwahrscheinlichkeit ist.
Mein Kollege Rick Wicklin hat hierfür in BASE SAS eine logistische Regression verwendet, um die Trefferwahrscheinlichkeit auf Basis der Distanz vorherzusagen. Da die Kunst der SAS Programmierung nicht jedermanns Sache ist, habe ich dieselben analytischen Schritte mit SAS Visual Statistics einfach „geklickt“.
Auf der linken Seite der Grafik befindet sich das Modell, das nur die Distanz als Einflussparameter beinhaltet. Die Güte dieses Modells liegt leider nur bei einem R-Quadrat von 0,0239. Mit der Hinzunahme von weiteren Einflussgrößen, wie dem Winkel zum Korb und die Kombination von Winkel und Distanz, verbessert sich das Modell schon auf 0,0312 – immer noch nicht hervorragend, aber besser. (Das BASE SAS Modell meines Kollegen hat natürlich die gleiche Güte.)
Wie geht es nun weiter?
Nehmen wir an, wir sind an dieser Stelle mit dem Modell zufrieden, dann leiten wir aus Visual Statistics einfach den Score-Code dieses Modells ab und lassen diesen z.B. gegen eine Datenmatrix, bestehend aus den "Whitespots" laufen. Somit werden die unbekannten Positionen auf dem Spielfeld bewertet und eine punktgenaue Trefferwahrscheinlichkeit abgeleitet. Das Endergebnis kann dann wiederum in einer Heatmap ohne weiße Flecken sichtbar gemacht werden oder anders ausgedrückt: Als Sportfan muss man nur auf die Heatmap schauen und kann sich entspannt zurücklehnen, denn Sie wissen ja schon vorher, dass der Ball reingeht.
Natürlich ist dieses Beispiel sehr einfach und analytisch nicht sehr tief, aber es verdeutlicht sehr schön, wie man von beschreibender Statistik zu prädiktiver Analytik kommt oder von Business Intelligence zu Business Analytics. Stellen Sie sich vor, Sie könnten mit Hilfe eines solchen Vorgehens die "Whitespots" in Ihrem Geschäftsmodell (Kündigungswahrscheinlichkeit, Cross-und Up-Selling-Potential etc.) bewerten und Ihre nächsten Aktionen punktgenau ausbalancieren, das hätte doch Charme, oder? Wenn Sie mehr über die Möglichkeiten von Visual Analytics und Visual Statistics erfahren möchten, treffen Sie mich Ende April auf dem SAS Forum in Bonn!