Data Management für Analytics – Governance schafft Vertrauen

0

Kürzlich habe ich mich mit meinem Kollegen Michael Herrmann darüber unterhalten, wie Big Data die Anforderungen an Datenmanagement und vor allem an die Datenqualität verändert – und wie die IT, der Data Scientist und die Fachabteilung besser zusammenarbeiten können. Heute geht es darum, wie Daten nachvollziehbar und transparent gemacht werden können – sowohl in ihrer Entstehung als auch in ihrer Verarbeitung. Michael kam mit Frage auf mich zu, wie wichtig denn das Thema Data Governance aus analytischer Sicht sei.

Michael Herrmann: Im Zusammenhang mit Datenqualität ist natürlich auch das Thema Governance eine große Herausforderung für uns. Denn in der IT müssen wir nachweisen, dass die Datenverarbeitung transparent, durchgängig und valide ist. Wie geht ihr denn mit der Nachvollziehbarkeit von Datenflüssen um?

Gerhard Svolba: Das ist auch für uns Data Scientists ein wichtiges Thema. Ich gebe zu, wir sehen Datenaufbereitung als kreativen Prozess und möchten alle Freiheiten haben. Natürlich sind wir dankbar, wenn wir unsere eigenen abgeleiteten Variablen bauen, Gruppierungen verändern, flexibel aggregieren und strukturieren können. Aber ich weiß auch, wie wichtig diese Nachweisbarkeit ist, gerade insofern, als sie inzwischen auch von den Regulierungsbehörden verlangt wird. Da reicht es nicht, euch zu sagen: Das sind jetzt eben die finalen Analyseergebnisse. Wir müssen euch da auch Information zurückspielen, wie diese zustande kamen.

Michael: Und umgekehrt können wir euch aufzeigen, wo die Daten herkommen, also den Data Owner, die Datenquelle oder den Datenlieferant belegen, beziehungsweise anhand eines Datenflussdiagramms die sogenannte Lineage nachweisen. So habt ihr mehr Sicherheit, dass ihr auch die richtige Quelle verwendet und bekommt weniger Nachfragen von Kollegen in der Art: Wer hat denn dieses Feld eigentlich gefüllt?

Gerhard: Das ist sicher ein ganz entscheidender Punkt. Denn diese Nachvollziehbarkeit schafft auch Vertrauen auf unserer Seite, da wir sehen, wo die Daten eigentlich herkommen. Wenn ich den statistischen Prozess darauf reduziere, einer Datentabelle bestimmte Zusammenhänge zu berechnen, darf ich trotzdem nicht vergessen, dass diese Daten irgendwo entstanden sind. Sie haben eine Geschichte, und die muss man verstehen und kennen. Diese Lineage, also die Frage nach dem Ursprung und der Entstehung der Daten, macht die Datenanalyse erst transparent.

Michael: Und das ist angesichts der neuen regulatorischen Vorgaben immens wichtig. Im Sinne der EU-Datenschutz-Grundverordnung (DSGVO) müssen wir in gut einem Jahr als Gesamtunternehmen nachweisen, wo und wie sich die Daten bewegen. Fühlt ihr euch als Data Scientists eingeengt, weil ihr euch Fragen stellen müsst wie: Darf ich diese Daten überhaupt noch verwenden? Darf ich sie in mein Modell reinnehmen? Was sind die Anforderungen dafür?

Gerhard: Wir fühlen uns schon ein wenig eingeengt. Denn so wie in den vergangenen zehn Jahren werden wir in Zukunft wahrscheinlich nicht mehr arbeiten können, weil wir viel mehr Wert auf Nachvollziehbarkeit legen müssen. Wir müssen zeigen, wie wir zu bestimmten Entscheidungen kommen. Und wir müssen beweisen, dass wir Daten nur in einer bestimmten Weise nutzen und nicht irgendwelchen Vorgaben widersprechen. Ich denke, diese Initiative wird uns in Zukunft noch viel näher zusammenbringen.

Michael: Das ist auch meine Vermutung. Wir denken zudem im Moment darüber nach, den Data Mart, der ja zurzeit physisch als Datenbank vorliegt, zu dynamisieren. Das heißt, ihr könnt dann schneller reagieren, wenn beispielsweise jemand dem Callcenter Bescheid gibt, dass man seine Daten nicht verwenden darf. Wir können diese Daten jetzt dynamisch ausblenden, sodass ihr beim nächsten Datenabzug gar nicht mehr in die Gefahr kommt, Daten zu selektieren, wenn der Kunde dem widersprochen hat.

Gerhard: Das ist tatsächlich ein großer Vorteil. Wir vermeiden damit die Situation, dass wir mit einem Ergebnis oder mit einem Modell in ein Meeting gehen und uns gar nicht sicher sind, ob das wirklich die Daten sind, die wir verwenden dürfen. Schließlich lässt sich nicht ausschließen, dass jemand mal vergisst, diese Verwendbarkeit genau nachzuprüfen. Und da ist es natürlich sehr hilfreich, wenn ihr uns schon Mechanismen gebt, um das sicherzustellen.

Michael: Und das ist ja, was man unter „modernem Datenmanagement“ versteht. Dazu gehören dann auch Self-Service und Approachable Analytics.

Welche Technologien dabei eine Rolle spielen und wo die Reise für den Analytiker 2020 hingeht – dazu mehr im nächsten Blog.

Share

About Author

Gerhard Svolba

Principal Solutions Architect

Dr. Gerhard Svolba ist Analytics Expert und Senior Solution Architect bei SAS. Zu seinen Aufgabenbereichen gehören das Produktmanagement für die analytischen Produkte von SAS sowie die branchenübergreifende Konzeption und Durchführung analytischer Projekte. Besonderer Fokus liegt auf Kundenanalyse, Risiko-Prognose und Demand Forecasting. Seit 2004 ist Gerhard Svolba Buchautor für SAS-Press. 2007 erschien das Buch „Data Preparation for Analytics using SAS“, im Mai 2012 „Data Quality for Analytics Using SAS“. Darüber hinaus betreut er die User Group „SAS Club“. Dr. Gerhard Svolba hat einen Lehrauftrag an der Fachhochschule Steyr im Bereich „International Marketing Management“. Der promovierte Statistiker ist seit 1999 bei SAS. Neben seinem Statistikstudium erlangte er zusätzlich den Master-Titel im Bereich Betriebsinformatik. ENGLISH: Dr. Gerhard Svolba is a senior solutions architect and analytic expert at SAS Institute Inc. in Austria, where he specializes in analytics in different business and research domains. His project experience ranges from business and technical conceptual considerations to data preparation and analytic modeling across industries. He is the author of Data Preparation for Analytics Using SAS® and Data Quality for Analytics using SAS and teaches a SAS training course called “Building Analytic Data Marts.

Related Posts

Leave A Reply

Back to Top