Kurz vor Ende des „Jahres der Statistik“ soll dieser Blog-Beitrag eine Lanze für die vielen Statistiker und Statistikerinnen brechen, die tagein tagaus, die ihnen gestellten Analyseaufgaben sorgfältig erfüllen. Und sich dabei häufig den Ruf einhandeln "detailverliebt“ zu sein, wenn es um die nötige Datenbasis geht.
Wie kommen wir zu unserem Ruf?
Warum ist das so? Sind wir (Statistiker und Statistikerinnen) wirklich so kompliziert und stellen Anforderungen an die Daten, die schwer zu erfüllen sind. Oder sind wir nur Getriebene der Fragestellung selbst und der Anforderungen der statistischen Methoden?
Wir wollen hier die Unschuldsvermutung gelten lassen und davon ausgehen, dass keiner von uns aus Jux und Tollerei extra Daten aus weit vergangenen Zeitperioden ausgraben lässt oder noch mehr Variablen in den Data Mart aufnimmt.
Meist wird die Arbeit des Statistikers an der Qualität der analytischen Ergebnisse gemessen. D.h. je überzeugender, vorteilhafter, signifikanter ein Analyseergebnis ist, desto besser hat man offensichtlich gearbeitet. Ein gutes Analyseergebnis wird aber bekanntlich auch entscheidend von der Qualität und Aussagekraft der Analysedaten beeinflusst. Somit ist es nachvollziehbar und verständlich, wenn Herr Statistiker und Frau Statistikerin besonderes Augenmerk auf die Datenbasis legen.
Und das passiert nicht nur aus Eigennutz „Damit man gut dasteht“, sondern aus der Sorgfaltspflicht heraus, damit auf Basis der Ergebnisse eine profunde Entscheidung getroffen werden kann. Beleuchten wir drei häufigsten Datenanforderungen im Detail.
Wen interessiert der Schnee von gestern? – Lernen aus der Geschichte
Um Aussagen über die Zukunft treffen zu können, müssen vorher historische Muster erkannt, analysiert und extrapoliert werden. Dafür sind historische Daten nötig. Für viele operative IT-Systeme sind hingegen historische Versionen der Daten nicht von Bedeutung, sondern es wird nur die aktuelle Version der Daten für die Abwicklung des operativen Prozesses benötigt.
Denken wir an das Beispiel eines Tarif-Wechsels bei einem Mobilfunkvertrag. Das operative Billing-System benötigt in erster Linie den aktuell vertraglich festgelegten Tarif für jeden Kunden, um seine Gespräche korrekt abrechnen zu können. Für die Analyse des Kundenverhaltens benötigen wir aber auch den vorhergehenden Tarif, um festzustellen, welche Tarifwechsel-Muster häufig zu einem bestimmten Ereignis, wie z.B. einem Produkt-Upgrade oder einer Kündigung führen.
Für manche Analysen ist noch zusätzlich zwischen historischen Daten und dem historischen Snapshot der Daten zu unterscheiden: Bei der Prognose der Anzahl der vermieteten Fahrzeuge einer Mietwagenfirma für die nächsten vier Wochen, wird für die Prognose meist nicht nur die tägliche Anzahl der vermieteten Fahrzeuge der letzten Monate verwendet, sondern auch die im System bereits bekannten Buchungen. In das statistische Modell fließen dann z.B. für den 18.11.2013 folgende Daten ein:
- Anzahl der vermieteten Fahrzeuge am 18. November
- Anzahl der Buchungen für den Verleihtag 18.11.2013, die per 17.11.2013 bereits im System eingetragen sind
- Anzahl der Buchungen für den Verleihtag 18.11.2013, die per 16.11.2013 bereits im System eingetragen sind
- ...
Da der historische Buchungsstand für einen bestimmten Verleihtag vom operativen Buchungssystem laufend überschrieben wird, kann er meist nicht direkt bereitgestellt, sondern muss in einem Data Warehouse historisiert werden.
„Mehr“ ist fast immer besser
Um fundierte Aussagen auf Basis statistischer Ergebnisse treffen zu können, ist eine bestimmte Mindestdatenmenge nötig. Diese Mindestdatenmenge wird auch Fallzahl genannt und hängt von der Problemstellung und der Verteilung der Daten ab. Der Bereich der Stichprobenplanung beschäftigt sich mit der Bestimmung der Fallzahl, insbesondere um sicherzustellen, dass ein potentielles Ergebnis in den Daten auch signifikant erkannt werden kann.
Im „Predictive Modeling“, wo z.B. die Eintrittswahrscheinlichkeit von Ereignissen vorhergesagt werden soll, ist nicht nur die Anzahl der Beobachtungen, sondern auch die Anzahl der Ereignisse in den Daten wichtig. So werden wir in der Kampagnen-Responseanalyse in einem Datensample mit 30 Käufern und 70 Nicht-Käufern fundiertere Aussagen über die Gründe für den Produktkauf treffen können, als wenn wir nur 5 Käufer und 95 Nicht-Käufer haben (obwohl in beiden Fällen die Fallzahl n=100 beträgt).
„Mehr“ kann auch bedeuten, dass wir eine größere Anzahl von Merkmalen im Datenbestand haben wollen. Diese zusätzlichen Merkmale können potentiell dazu beitragen, dass die Prognosegenauigkeit steigt oder dass Zusammenhängen gefunden werden. Eine Erhöhung der Anzahl der Merkmale ist durch Einbeziehung weiterer Datenbestände möglich oder durch Ableitung von Variablen aus transaktionellen Daten.
Eine höhere Datenquantität kann in der Analyse aber auch bedeuten, dass die Datenmengen im Auswertesystem nur schwer bewältigbar sind. Nur am Rande: Aufgrund seiner Rechenpower und der Möglichkeit große Datenmengen zu verarbeiten ist SAS für diese Herausforderung seit jeher gut gerüstet. Für Analyseaufgaben mit sehr großen Datenmengen (Big Data), bietet SAS mit „SAS High Performance Analytics“ die optimale Lösung an.
Detaildaten vs. aggregierte Daten – oder warum externe Datenquellen nicht immer die Lösung unseres Datenproblems sind
Oftmals werden externe Datenquellen als die Lösung gesehen, Analysedaten um jene Aspekte anzureichern, die in den eigenen Daten nicht verfügbar sind. In vielen Fällen ist dies auch möglich, wenn z.B: soziodemographische Daten pro Gemeindebezirk verwendet werden, um das Umfeld von Kunden zu beschreiben.
Zu beachten ist hier, dass diese Merkmale häufig nicht für jeden individuellen Kunden verfügbar sind, sondern nur als Aggregat pro Gruppe. Benötigt man individuelle Werte pro Analysesubjekt so sind aggregierte externe Daten nicht die Lösung.
Im Rahmen meines Buches „Data Quality for Analytics“ zitiere ich das Beispiel, wo das Fahrverhaltens eines Segelboots während einer Regatta analysiert werden soll. Das Segelboot selbst hat zwar ein GPS-Tracking Device an Board, aber keine Windmessanlage. D.h. die Position, Geschwindigkeit und der Kompasskurs sind für das Boot verfügbar, nicht aber die Windstärke und Windrichtung.
Man könnte nun annehmen, dass die „externen Daten“ der offiziellen Windmessanlage im Hafen ein guter Ersatz für diese Daten sein könnten. Bei genauerer Betrachtung stellt sich aber heraus, dass diese Daten zwar ein gutes Bild der allgemeinen Windsituation wiedergeben. Sie werden aber weit entfernt vom Regattagebiet gemessen und sind somit nicht für das individuelle Fahrverhalten eines Bootes am Regattafeld repräsentativ. Zusätzlich werden die Daten werden nur in 5-Minuten-Abständen aufgezeichnet und erlauben so keine detaillierte Analyse des Segelverhaltens auf kurzfristige Windänderungen.
Sorgfalt statt Gier
Mit dem Wunsch nach umfangreichen, historischen Detaildaten will der Statistiker/die Statistikerin also nicht lästig sein, sondern der gestellten Analysefragestellung die nötige Sorgfalt zukommen lassen.
Interesse geweckt?
Wenn diese Zeilen Ihr Interesse geweckt haben, finden Sie zu diesen Thema mehr Details in meinen Büchern „Data Quality for Analytics Using SAS“ bzw. „Data Preparation for Analytics Using SAS“