Data Management für Analytics – Enge Verzahnung von IT und Data Science ist entscheidend

0

Welche Rolle Datenqualität und Data Governance beim Data Management für Analytics spielen, habe ich mit meinem Kollegen Gerhard Svolba zuletzt an dieser Stelle diskutiert. Doch was genau macht modernes Datenmanagement aus, und welche Rolle spielen dabei neue Technologien à la Hadoop und Co.? Und wie sieht überhaupt die künftige Zusammenarbeit zwischen IT und Datenanalysten aus? Der Dialog geht weiter.

Michael Herrmann: Im Sinne des modernen Datenmanagements werden wir von der IT und ihr von der Data Science sicherlich künftig mehr Hand in Hand arbeiten. Und wichtig ist, dass wir euch Werkzeuge zur Verfügung stellen, mit denen ihr in der Lage seid, selbstständig zu arbeiten – im Sinne von Self-Service Analytics. Damit ihr selbst Ad-hoc-Abfragen durchführen könnt – und zwar genau dann, wenn ihr sie braucht.

Gerhard Svolba: Ja, das ist unglaublich wichtig. Ich bekomme immer häufiger die Bitte aus den Fachabteilungen, externe Daten abzufragen (bspw. Wetterdaten, Großschadensdaten), die wir gar nicht im System haben. Und die sollen wir jetzt auswerten, um festzustellen, ob sie sich überhaupt für eine weitergehende Analyse eignen und ob es sinnvoll ist, sie demnächst in hoher Qualität vorzuhalten. Und wir müssen dann zusehen, wie wir die CSV-Dateien ins System bringen.

Michael: Wir haben ja ein erstes Leuchtturm-Projekt mit dem Hadoop Sandbox-Cluster. Der hat den Vorteil, dass wir in der IT die dort abgelegten Daten viel schneller wiederfinden, als wenn ihr sie auf eurem persönlichen oder dem Netzwerk-Laufwerk speichert.

Gerhard: Genau. Auch wenn wir Data Scientists ab und an ein bisschen Datenmanagement betreiben, ist es nicht zielführend, unsere Server mit zu vielen Rohdaten zu überladen. Sonst haben wir im Endeffekt Version A, B, C und verlieren rasch den Überblick. Wenn sie bei euch in der Sandbox liegen, profitieren wir auch von einem umfassenden Blick auf die Daten.

Michael: Ja, denn wir liefern euch ja nicht nur ein großes Hadoop-Cluster, in dem ihr alles wie auf einer Riesenfestplatte speichern könnt, sondern ihr habt auch gleich eure Logik mit Data Governance drin, ohne dass ihr dafür zusätzliche Werkzeuge nutzen müsst.

Gerhard: Das hat zum einen den Vorteil, dass wir für die erste Modellentwicklung und manche Analysen diese riesigen Datenmengen nicht erst auf unseren Analytics-Server bringen müssen, sondern direkt in Hadoop durchführen können. Zum anderen können wir analytische Modelle für die laufende Generierung der Vorhersagen direkt an Euch übergeben, damit ihr diese gleich in der Hadoop-Plattform anwendet.

Michael: Und wenn es später an das Scoring geht, nutzen wir ja auch dieselben Score-Karten mit neuen Daten und müssen daher sicher sein, dass diese Daten auch zu jenen Score-Karten passen. Hier geht es also um ein effizientes Modellmanagement.

Gerhard: Ich denke, dass wir zentrale Strukturen brauchen. Wir werden verstärkt dazu aufgefordert, detaillierte Modelle nach Segmenten, nach Regionen zu bauen. Dann haben wir nicht mehr nur ein Segmentierungs- oder Kaufprognosemodell, sondern plötzlich 20 oder 30, weil es einfach so viele Segmente gibt. Und bei dieser aufwendigen Modell-Governance und -Verwaltung sind wir glücklich über jede Art von Unterstützung seitens der IT.

Michael: Das bringt mich zu der Frage: Wo geht die Reise hin? Welche Anforderungen wird der Analytiker 2020 haben, beziehungsweise wie wird er mit der IT kooperieren?

Gerhard: Wir freuen uns über mehr Verständnis dafür, wenn wir mal wieder bestimmte (externe oder Log-) Daten ganz schnell für eine Ad-hoc-Analyse aufbereitet brauchen, weil die Fachabteilung im Customer Retention sich gerade dafür interessiert. Es spielt auch keine Rolle, wenn es dann eben noch nicht die perfekten Warehouse-Daten sind. Diese Fälle werden in den nächsten Jahren zunehmen, und wir werden uns diesbezüglich sicher häufiger austauschen und abstimmen müssen.

Michael: Und das werden wir in der IT auch leisten können, da wir zurzeit ja modernisieren. Wir haben Zwänge wie Governance und Datenschutz, rollen aber insbesondere Werkzeuge aus, mit denen ihr nachvollziehen könnt, wo die Daten herkommen. Ich denke, da sind wir auf einem sehr guten Weg.

Gerhard: Und ich bin froh, in diesem modernen Umfeld einen Counterpart in der IT zu haben, der nicht mehr so konservativ wie in den vergangenen 20 Jahren ist, sondern in modernen Strukturen denkt. Wenn dies nicht gegeben wäre, könnten wir wohl auch fachlich unsere Aufgaben in Zukunft kaum mehr lösen.

Share

About Author

Michael Herrmann

Sr Solutions Architect

Michael Herrmann ist Sr Solutions Architect und Data Management Consultant bei SAS. Er berät Finanzdienstleister rund um Risiken, Governance und ihre „Vermeidung“, Presaler, PoC-Macher und Metadaten-Fan, bekehrter COBOL-Anwendungsentwickler mit abgebrochenem IT-Studium, Rheinländer im Exil, orientiert an Edward Tufte bis Scott & Douglas Adams, staunt über Deep Learning, Tabellenkalkulationen und Attributionsfehler.

Related Posts

Leave A Reply

Back to Top