Data Management für Analytics – Datenqualität ist keine Einbahnstraße!

0

Auch wenn der Hype von Gartner für beendet erklärt wurde: An Big Data und der Auswertung data-management-fur-analytics-datenqualitat-ist-keine-einbahnstraseentsprechender (oftmals unstrukturierter) Datenmengen kommt kein Unternehmen vorbei. Doch welche Herausforderungen stellen Big Data und damit einhergehende Entwicklungen an das Data Management? Wie können Data Scientists, IT und Fachabteilung heute zusammenarbeiten? Und wo prallen die Wunschvorstellungen von Flexibilität und Kontrolle aufeinander? Darüber habe ich mich mit Gerhard Svolba, Data Scientist bei SAS, unterhalten.  

Bisher war das Vorgehen bei einem Datenanalyseprojekt ja klar: Ihr Analytiker sagt uns in der IT, welche Variablen ihr braucht, und wir selektieren diese dann – und stellen sie euch ganz nach Wunsch bereit. Das hat immer gut funktioniert. Ist das heute anders? 

Gerhard: Ja, das hat immer sehr gut gepasst. Der Unterschied ist: In der Vergangenheit handelte es sich oft um Report-Erstellung oder deskriptive Fragestellungen. Zusammen mit der Fachabteilung haben wir vorab Tabellen oder Diagramme erdacht, die darin enthalten sein sollten. Und ich konnte dir immer ganz genau sagen, welche Kategorie, welche Messvariablen, welche Zeitachse und welchen Detaillierungsgrad wir brauchten. 

Aber das hat sich doch nicht so sehr geändert, denn wir haben ja nicht plötzlich mehr Daten im System als früher. Und wir brauchen diese Daten immer noch strukturiert. Oder was ist durch Big Data anders geworden? 

Gerhard: Der Unterschied ist, dass wir bei Big Data oft eine Fragestellung der Fachabteilung haben, die nicht mehr mit deskriptiven Methoden oder klassischem Reporting zu beantworten ist. Hier brauchen wir analytische Methoden, müssen ein prädiktives Modell mit Entscheidungsbäumen bauen. Und in diesem Fall können wir a priori gar nicht sagen, welche Variablen wir unbedingt brauchen. 

Das heißt, ich würde dir alle Variablen geben und ihr baut diese noch um? Es folgt also noch ein kreativer Prozess, den ich als IT gar nicht vorhersehen kann? 

Gerhard: Genau. Es hilft uns aber enorm, wenn die Daten, die von dir kommen, schon mal vorstrukturiert und auch mit anderen Lookup-Tabellen verbunden sind. Ich tue mich schwer, genau drei Variablen zu nennen. Denn sage ich, ich brauche die Variablen Region, Alter und Einkommen, ist deine Reaktion womöglich: Das Alter kannst du vergessen. Das haben wir nicht, weil das Geburtsdatum nicht gepflegt wurde. 

Da sind wir ja schon beim spannenden Thema Datenqualität. Wie geht ihr denn damit um, wenn beispielsweise das Geburtsdatum fehlt? 

Gerhard: Das ist eben der Unterschied zwischen Bericht und Analyse. Beim Fehlen einer solch wichtigen Variablen kann es sein, dass wir den gesamten Bericht nicht machen können. In der Analyse muss nicht unbedingt alles mit der einen Variablen stehen oder fallen. Wenn der Fachbereich meint, die Variable Alter ist für die Vorhersage des Kundenverhaltens wichtig, diese aber nicht vorhanden ist, können wir immer noch schauen, wie der Erklärungsgehalt von anderen Variablen übernommen werden kann, sodass sich trotzdem ein analytisches Modell bilden lässt. 

Was wir auf alle Fälle machen können, ist – im Sinne der technischen Datenqualität – in den Stammdaten zu schauen, ob das eingegebene Datum überhaupt gültig ist. 

Gerhard: Genau, es ist extrem wichtig, dass geprüft wird, ob es sich überhaupt um plausible Werte handelt. Für uns ist aus analytischer Sicht zudem interessant, warum es zum Beispiel keinen Wert für die Variable Alter gibt. Wenn es für elf Prozent einen Null-Value im Geburtsdatum gibt, ist es interessant zu schauen, wie sich diese elf Prozent zusammensetzen. Ob sie gleichmäßig auf alle Kundensegmente, Vertragstypen, Regionen und Altersklassen verteilt sind. Oder ob es irgendwelche systematischen Zusammenhänge gibt, zum Beispiel insofern, als das Alter immer bei langjährigen Kunden fehlt, weil die aus alten Vertragsbeständen übernommen worden sind.  

Und Erkenntnisse daraus könntet ihr sogar zurückspielen, mit einem Werkzeug, das die Datenqualität misst. Und die entsprechende Messregel könnten wir bei der Datenerfassung, also bei der Auftragserstellung mit reinnehmen. Und wenn wir die Daten zusammensuchen, wissen wir dann, dass sie aus einem alten System kommen und wir das Alter woanders herbekommen müssen. 

Gerhard: Das ist ein wichtiger Kreislauf, in dem sich IT, Data Scientist und Fachabteilung bewegen sollten. Es ist nicht sinnvoll, in Einbahnstraßen zu denken nach dem Motto: Wir haben jetzt Daten von euch bekommen, und das war’s. Stattdessen müssen wir mit den fachlichen Regeln, die wir erkannt haben, wieder auf euch zurückkommen und euch darüber informieren, dass diese Information typischerweise bei langjährigen Kunden fehlt, und fragen, welchen Grund es dafür geben könnte. Du kennst die Daten beziehungsweise deren Entstehung und Systeme ja viel besser. Daher kannst du uns unter Umständen auch Feedback geben, wie bestimmte Variablen zu interpretieren und zu verwenden sind.  

Exakt, auf diesen Austausch in beide Richtungen kommt es letztlich an, wenn es um das Thema Datenqualität geht. Und das wird uns in Zukunft sicher noch beschäftigen, da wir sicherzustellen müssen, dass Daten wirklich „Analytics-ready“ sind.

Danke Gerhard für das Gespräch!

Gerhard Svolba

Im nächsten Teil des Interviews wird das Thema Data Governance im Zusammenhang mit Datenmanagement für Analytics diskutiert.

 

Share

About Author

Michael Herrmann

Sr Solutions Architect

Michael Herrmann ist Sr Solutions Architect und Data Management Consultant bei SAS. Er berät Finanzdienstleister rund um Risiken, Governance und ihre „Vermeidung“, Presaler, PoC-Macher und Metadaten-Fan, bekehrter COBOL-Anwendungsentwickler mit abgebrochenem IT-Studium, Rheinländer im Exil, orientiert an Edward Tufte bis Scott & Douglas Adams, staunt über Deep Learning, Tabellenkalkulationen und Attributionsfehler.

Related Posts

Leave A Reply

Back to Top