Data Scientists verbringen eine Menge Zeit mit Daten. Dabei gilt immer – von der Anwendung von Machine-Learning-Modellen bis hin zum Trainieren von KI-Modellen: Mit der Datenqualität stehen und fallen die Ergebnisse. Analytics und Data Science stellen jedoch nicht nur Ansprüche an Datenqualität. Sie können auch dazu beitragen, diese zu verbessern.
Die Ergänzung fehlender Werte und die Identifikation komplexer Ausreißer sind weithin bekannte Beispiele dafür, wie Analytics die Datenqualität erhöhen kann – es geht jedoch noch wesentlich mehr.
1. Identifikation von Ausreißern
Analytics spielt eine große Rolle bei der Entdeckung von Ausreißern unter Verwendung von statistischen Methoden wie Standardabweichung oder Quantilen. Dies erlaubt eine univariate Profilerstellung für Ausreißer. Ebenso können Clusteranalysen und Distanzmetriken eingesetzt werden, um abweichende Werte schnell zu erkennen – und zwar aus einem multivariaten Blickwinkel.
Die Identifizierung einzelner Ausreißer mithilfe von Vorhersage- und Zeitreihenmodellen erlaubt es, Validierungsgrenzen und optimale Korrekturwerte individuell zu berechnen. Ein Gesamtdurchschnitt birgt die Gefahr, dass bestimmte Ausreißer nicht erkannt werden. Besser ist hier die Verwendung von individuellen Referenzwerten pro Gruppe oder Analysesubjekt.
Analytics und Data Science können nicht nur für das Profiling oder für die Entdeckung von Ausreißern und nicht plausiblen Daten genutzt werden, sondern auch, um sinnvolle Imputationswerte zu finden.
2. Ergänzung fehlender Werte
Analytics kann so Imputationswerte für fehlende Informationen in Querschnittsdaten und Zeitreihendaten liefern. Die Imputationsverfahren dafür reichen von durchschnittsbasierten bis hin zu individuellen Imputationswerten und basieren auf analytischen Methoden wie Entscheidungsbäumen und Spline-Interpolationen für Zeitreihen. Das ermöglicht die Nutzung unvollständiger Daten in der Analyse.
3. Datenstandardisierung und Deduplizierung
Für die Identifizierung und Entfernung von Dubletten in den Datenbanken, bei denen kein spezieller Schlüssel für die Analysesubjekte vorhanden ist, können statistische Methoden herangezogen werden, die die Ähnlichkeit zwischen Datensätzen beschreiben – und zwar anhand von Informationen wie Adressen, Namen, Telefonnummern und Kontoverbindungen.
4. Umgang mit unterschiedlichen Datenmengen
Analytics erlaubt es, die optimale Anzahl an Beobachtungen für ein kontrolliertes Experiment mit Methoden zur Berechnung der Sample-Größe und -Leistung zu planen. Für eine geringe Anzahl von Samples oder Events in Vorhersagemodellen gibt es spezielle Verfahren zur Modellierung seltener Events. Für die Vorhersage von Zeitreihen, die wenige Werte ungleich 0 haben, stehen sogenannte “intermittend demand models“ bereit
5. Analytische Transformation von Input-Variablen
Analytische Methoden werden eingesetzt, um Variablen zu transformieren, damit sie zur gewählten Analysemethode passen. Logarithmische und Quadratwurzeltransformationen werden beispielsweise genutzt, um rechtsschiefe Daten in eine normale Verteilung zu überführen.
Für Variablen mit vielen Kategorien bietet Analytics Methoden, um Kategorien zu kombinieren. Die Kombinationslogik für diese Kategorien hängt von der Anzahl von Beobachtungen in jeder Kategorie und der Beziehung zu den Zielvariablen ab. Beispiele für die Methode umfassen Entscheidungsbäume oder Berechnungen des „Weight of Evidence“.
Mit Text Mining lässt sich Freitext in strukturierte Information übertragen, die dann wiederum mit analytischen Verfahren weiterverarbeitet werden kann.
6. Auswahl von Variablen für Vorhersagemodelle
Es gibt eine ganze Reihe Methoden um ein Subset von Variablen zu identifizieren, die in hohe Vorhersagekraft für die Zielvariable haben. Diese Verfahren umfassen einfache Metriken wie R-Quadrat und ausgefeilte Metriken wie LARS, LASSO und ELASTICNET.
Viele analytische Methoden lassen zudem verschiedene Optionen für die Variablenwahl innerhalb des analytischen Modells selbst zu. Ein Beispiel dafür sind Vorwärts-, Rückwärts- und schrittweise Modellwahl bei Regressionsanalysen.
7. Bewertung von Modellgüte und What-if-Analysen
Analytische Lösungen sind meist dafür konzipiert, dass sie bei der Modellentwicklung und -validierung unterstützen. In der prädiktiven Modellierung beispielsweise ist es oft wichtig, einen schnellen ersten Eindruck der Vorhersagekraft der verfügbaren Daten zu bekommen (auch bekannt als „rapid predictive modeling“).
Diese Tools bieten darüber hinaus auch Möglichkeiten für eine schnelle Bewertung der Modellgüte in Form von What-if-Analysen, die besonders nützlich für die Festlegung der Relevanz von Variablen oder Gruppen von Variablen sind. Sie erlauben auch eine Abschätzung der Auswirkung auf die Modellgüte, wenn bestimmte Variablen nicht verfügbar sind.
Die Beispiele stammen aus dem SAS Press-Buch Data Quality for Analytics Using SAS. Weitere Beiträge zum Thema habe ich auf Github, in den SAS Support Communities sowie in meinen Data-Science-Büchern veröffentlicht.
Die Podcastreihe “KI kompakt” bringt Sie in nur 15 Minuten pro Sendung auf den neusten Stand der Dinge in Sachen Artificial Intelligence.