Data-Science-Methoden: Automatisiert die Nadel im Heuhaufen finden

„Die wichtigsten Dinge schreibt man am besten gleich in die Einleitung! Eventuell lesen einige ja gar nicht bis zum Hauptteil weiter“. Einen ähnlichen Gedanken hatte ich bei meinem aktuellen Buch Applying Data Science – Business Case Studies Using SAS auch. Da sind bereits in der Einleitung die Mehrwerte aufgezählt, die Ihnen Advanced Analytics und Data-Science-Methoden gegenüber einfachen deskriptiven Methoden bieten.

Und das sind eine ganze Menge: Quantifizierung der Zusammenhänge, automatische Priorisierung der wichtigsten Auffälligkeiten, Objektivität und … Aber halt! Vielleicht schaffe ich es doch, Ihr Interesse zu wecken und Sie zum Lesen des Hauptteils dieses Blogs zu überreden.

Automatisch zur Nadel im Heuhaufen

Beschreibende oder interaktive Analysen erfordern meist, dass Sie explizit nach Auffälligkeiten in den Daten suchen. Sie erstellen Abfragen, betrachten Grafiken und durchforsten Tabellen – und das alles manuell.

Analytische Methoden, wie ein Entscheidungsbaum, erlauben es Ihnen, die Beziehungen automatisch zu identifizieren. Sie geben einfach das Ereignis sowie eine Liste von möglichen Einflussfaktoren an. Anstatt jede Einflussgröße manuell zu gruppieren und auszuwerten, wählt die Data-Science-Methode hier die wichtigsten Faktoren automatisch aus und bewertet diese. Sie werden so zur Nadel im Heuhaufen geleitet, ohne dass Sie alle Bereiche händisch absuchen müssen.

Emotionslos ist manchmal gut!

Analytische Methoden werden nicht durch persönliche Meinungen, Präferenzen oder Vorwissen beeinflusst, die Menschen bei Beurteilungen anlegen. Das mag hart klingen. Aber: Unterschiedliche Personen haben historische Ereignisse oft auch ganz unterschiedlich in Erinnerung und bewerten Zusammenhänge entsprechend individuell. Analytische Ergebnisse hängen dagegen ausschließlich von den Fakten ab, die in den Daten gefunden wurden. Auf diese Art können viele „Märchen“ oder „Urban Legends“, die über Ihre Kunden oder Ihre unternehmensinternen Geschäftsprozesse kursieren, verifiziert und korrigiert werden.

„Ja, aber da müssen wir noch berücksichtigen, dass …“

Können auch Sie diesen Satz nicht mehr hören? Sie präsentieren Ihren Kampagnenplan, und der erste Einwand ist „Ja, aber in dieser Region erwarten wir in der Regel ohnedies eine höhere Response-Häufigkeit“. Oder Sie stellen die Bedarfsvorhersagen vor und hören „Ja, aber in der Wintersaison haben wir in den südlichen Bundesländern typischerweise eine geringere Nachfrage“.

Data-Science-Methoden berücksichtigen Umweltparameter bereits vorab direkt im Modell. Saisonale Variation oder die Tatsache, dass einige Regionen ein anderes Ergebnis aufweisen, werden direkt in das Modell aufgenommen. Die Prognosen und Vorhersagen solcher Modelle werden somit automatisch im Hinblick auf Nebenwirkungen korrigiert. Das gibt Ihnen in Meetings Zeit für die wirklich relevanten Punkte in der Umsetzung Ihres Projekts.

„Zu Wechselwirkungen fragen Sie die Data Science“

Wir Menschen können gut intuitive Entscheidungen treffen und eindimensionale Einflussfaktoren wie „jüngere Kunden haben eine höhere Shopping-Frequenz" erkennen. Wir scheitern aber meist daran, den simultanen Einfluss von mehreren Beziehungen adäquat zu betrachten.

Wir kennen das zum Beispiel aus der Apotheke. Die Wirkungskurven von Medikamenten sind meist nicht linear: Wenn man zu wenig einnimmt, wirkt es nicht. Wenn man zu viel nimmt, ist es schädlich. Auch interagieren Medikamente mit anderen Wirkstoffen oder Lebensgewohnheiten.

Eine reine Beobachtung oder simple Beschreibung der Zusammenhänge reicht hier nicht aus. Multivariate Verfahren erlauben es aber, auch diese Zusammenhänge zu erkennen und zusätzlich noch zu quantifizieren. So können Vorhersagen über den erwarteten Outcome erstellt werden.

Wo soll ich anfangen?

Die Quantifizierung der Zusammenhänge erlaubt auch, eine sortierte Liste der Kunden zu erstellen. „Wer hat die höchste Kaufwahrscheinlichkeit?“ – „Welche Transaktion ist mit hoher Wahrscheinlichkeit betrügerisch?“. Damit optimiert Analytics direkt Ihre Geschäftsprozesse, weil Sie an der „richtigen“ Stelle ansetzen, Ihre Ressourcen optimal einteilen und gleich an jenen Stellen suchen, wo mit hoher Wahrscheinlichkeit die „Nadel im Heuhaufen“ liegt.

Wenn sogar der Mathematiker nicht mehr weiterrechnen mag

Manche Zusammenhänge oder Prozesse sind so komplex, dass man sie nicht mehr durch ein mathematisches Modell beschreiben kann (oder möchte). Monte-Carlo-Simulationen ermöglichen Ihnen, in Tausenden von Szenarien unterschiedliche Umwelteinflüsse zu generieren und den erwarteten Outcome für jedes Szenario zu bestimmen. Sie erhalten so einen Einblick, wie viele Szenario-Outcomes zwischen 2,5 Millionen Euro und 3,5 Millionen Euro liegen, und können anhand von Wahrscheinlichkeiten „Was wäre wenn“-Analysen sehr gezielt durchführen.

Weitere Beispiele und Details zu diesen Themen finden Sie in meinem Buch Applying Data Science – Business Case Studies Using SAS – und in meinen nächsten Blogs. Stay tuned!