West Perth ist das „analytische“ Paradies. Das wissen wir nun dank des Projekts „Paradise Found“ und des Blogbeitrags meines Kollegen Andreas Becks. Klar ist, ohne Machine Learning und Analytics wären wir niemals anhand der untersuchten fünf Millionen Datenpunkte zu 148.233 Orten weltweit aus 1.124 Datenquellen auf den Stadtteil der australischen Boomtown gestoßen. Für mich ebenso wichtig ist dabei der Aspekt Datenmanagement. Denn um die Daten zum Sprechen zu bringen, müssen Datenmanagement und Analytik optimal zusammenspielen.
Die wirkliche Big-Data-Herausforderung: V wie Variety
Die Herausforderung liegt bei Analyseprojekten (und auch im Fall von „Paradise Found“) oftmals nicht in der Menge der Daten, sondern in der Vielfalt der Quellsysteme und der Zugriffswege sowie in der maximalen Unterschiedlichkeit der Datenstrukturen bzw. der nicht vorhandenen Strukturen. Hier hat sich wieder einmal bestätigt, wie wichtig eine Plattform wie SAS Viya ist, die auf nahezu alle Datenquellen transparent zugreifen und diese Daten problemlos akquirieren kann.
Vielfältige Datenquellen und heterogene Datenstrukturen fordern alle Disziplinen moderner Datenqualitätskunst. Die Normierung und Zusammenführung von Städtenamen aus weltweit unterschiedlichsten Formaten – sowohl sprachlich als auch bzgl. des Zeichensatzes – waren bei „Paradise Found“ noch die leichteste Übung. Neben Standard-Datenqualitätsmethoden wie Profiling, Parsing, Cleansing etc. ist die analytische Datenanreicherung in solchen Projekten erfolgskritisch. Statt fehlende oder falsche Datenpunkte aus der Analyse auszuschließen, erlauben analytische Verfahren wie Machine Learning, die Daten weiter in ihrer Aussage zu verbessern.
Erfolgsfaktoren: schnell und einfach
Neben der großen Bedeutung der richtigen Datenmanagementwerkzeuge hat dieses Projekt wieder gezeigt, wie wichtig eine enge Verzahnung zwischen Datenmanagement und Analytik ist. Nur durch ein iteratives und integriertes Vorgehen ist es möglich, schnelle Fortschritte zu erzielen und die Analysen mit weiteren Daten anzureichern, um daraus neue Erkenntnisse zu gewinnen. Die traditionelle Arbeitsteilung zwischen Data Scientist und Data-Architekt bzw. zwischen Analyst in der Fachabteilung und IT ist vorbei. Nur das Verschmelzen dieser Prozesse zu einem iterativen Vorgehen schafft Innovationen. Nur eine integrierte Plattform wie SAS Viya, die diese iterativen Schritte in einem durchgängigen Prozess abbildet, ermöglicht die Umsetzung eines solchen Projekts in wenigen Wochen.
Wesentliche Aspekte sind hierbei die durchgängige Nutzung von Analytics und Machine-Learning-Algorithmen bereits bei der Datenvorverarbeitung sowie die permanente Transparenz der vorhandenen Daten, der Datenqualität und der bereits aus den Daten generierten Erkenntnisse in Form von Modellen. Kombiniert mit einem intuitiven Front-End können hierdurch in „Self-Service"-Manier sehr schnell unterschiedlichste Benutzer Daten sprechen lassen.
Big-Data-Management ist also weder eine leichte Fingerübung, noch sollte es eine unliebsame Aufgabe sein. Denn nur dann lassen sich mit einem unverstellten Blick auf die Daten Muster finden – und damit steht und fällt jedes Analyseergebnis. Ohne gutes Datenmanagement also kein – analytisch fundiertes – Paradies. Im Fall von „Paradise Found“ mögen valide und aussagekräftige Analyseergebnisse ein „Nice-to-have“ sein. Entscheidend werden sie in der Wirtschaft, wo sich mittels Machine Learning ganz neue Potenziale ergeben werden.
1 Comment
Ohne Datenqualität und Plausibilitätskontrolle, ist alles nichts. Auch hier nicht!