Machine Learning als Automatisierungsturbo

Datenmanagement alles andere als eine neue Disziplin. Dennoch verändert sich der Umgang mit Daten angesichts neuer Technologien wie künstliche Intelligenz (KI) und Machine Learning ebenso sehr wie die Analyse dieser Daten. Heute hat so ziemlich jedes Unternehmen moderne Datenmanagement-Werkzeuge im Einsatz, doch die angewandten Praktiken und Strategien stammen vielfach noch aus den 1990er Jahren und dem damaligem Aufkommen der Data Warehouses. Durch die Digitalisierung, Big Data und Cloud Computing stehen wir nun allerdings wieder vor komplett neuen Herausforderungen. Diese betreffen zudem nicht allein die Datenverarbeitungskette selbst (Volume, Variety, Velocity) – sondern mittlerweile auch das Betriebs- und Implementierungsmodell dahinter (IaaS, PaaS, Serverless bzw CI/CD). Alle Bausteine müssen den höchsten Ansprüchen an Agilität, Elastizität und vor allem Integrationsfähigkeit genügen, nicht zuletzt der Mensch.

Das Aus fürs Data Warehouse?

Klassische Datenbanken und Data Warehouses werden in jedem Fall weiterhin ihre Daseinsberechtigung haben – gerade für strukturierte, relationale Daten. Trotzdem müssen einige entscheidende, derzeit vielfach manuelle Tätigkeiten wie Kategorisierung oder Cleansing in Zukunft schneller absolviert werden. Dabei kann Machine Learning helfen, indem sich wiederholende Tätigkeiten einfach automatisiert werden.

Die Anwender, die sich mit der Datenaufbereitung beschäftigen, werden entlastet, wenn das System beispielsweise selbst zwischen einer Postleitzahl und einer Telefonnummer unterscheiden kann. Der Effekt einer solchen Funktionalität ist immens, wenn man bedenkt, dass dadurch beispielsweise automatisch Vornamen, Nachnamen, Geschlecht- oder Adressdaten aus Fließtext extrahiert werden können. Aufgaben wie diese sind meist sehr zeitaufwändig und gehen mit vielen Code-Zeilen einher. Sie können aber mittlerweile zuverlässig von einer Maschine übernommen werden.

Maximale Automatisierung bei zunehmender Komplexität

Einen weiteren riesigen Mehrwert schafft Machine Learning momentan beim Data Profiling. Hier erlaubt die Technologie das proaktive und frühzeitige Erkennen von Fehlmustern oder Anomalien.

Idealerweise wird das Datenmanagementsystem zum selbstlernenden System und signalisiert, wenn eine neuartige Situation vorliegt, die es nicht einordnen kann. Dann ist der Mensch gefragt, um entsprechende Regeln dafür zu entwickeln.

Streaming drückt aufs Entscheidungstempo

Machine Learning kann darüber hinaus dabei unterstützen, Datenströme in den Griff zu bekommen. Bei Sensordaten reicht es meist nicht, sie erst an ein zentrales System zu schicken und dort auszuwerten. Die Analyse muss so früh wie möglich in der Datenkette beginnen – am besten „on edge“, also so nah am Datenursprung wie möglich. Voraussetzung dafür ist, dass man die entsprechende Logik zentral definieren, verteilen und monitoren kann. Unabdingbar sind dafür auch analytische Methoden die autark Muster erkennen,, Fehlwerte filtern und automatisch glätten, bevor die Daten an die nächste Verarbeitungsstufe weitergeleitet werden.

Es geht nicht ohne interdisziplinären Austausch

Im modernen Datenmanagement ist wirklich alles im Fluss, auch Rollen und Zuständigkeiten. Im gleichen Zuge, wie der Data Engineer statistisches Know-how aufbauen muss, benötigt der Data Scientist immer mehr ETL-Datenintegrationskenntnisse. Machine Learning kann hier als Mittelsmann agieren – mittels intelligentem Tagging und Suggestions, also der Kennzeichnung gleichartiger Daten und dem Unterbreiten von Vorschlägen wie „Empfohlene Aktion: Groß/Kleinschreibung anpassen“ oder „Andere User verwendeten auch …“.Self-Service sorgt dafür, dass der Fachanwender per Point-and-Click die Informationen zusammensuchen kann, die er benötigt – ohne Programmierkenntnisse oder Unterstützung durch die IT. Auf diese Weise ist es möglich, Projekte wirklich abteilungsübergreifend und Business-Case-gesteuert umzusetzen.

Und was kommt 2020?

Für eine Datenmanagement-Plattform werden Performance und Agilität die wichtigsten Kriterien bleiben. Datenverarbeitung muss möglichst stabil, schnell und flexibel sein. Die Zeiten der starren Datenstrategien und der alleinigen Batch-Verarbeitung über Nacht sind allerdings vorüber. Viele Applikationen werden verstärkt in die Cloud wandern. Integration ist ein weiteres Schlüsselwort – und zwar auf allen Ebenen: Systeme, Methoden, Mitarbeiter. Letztlich ist das die Grundvoraussetzung, um bessere Erkenntnisse aus den Daten zu gewinnen.

Erfahren Sie mehr zu KI und Machine Learning in unserer Podcast-Serie und hier auch der Podcast von Rainer Sternecker, wie KI den Datenmanagement-Prozess unterstützen kann (Folge 8).