Data Management für Analytics – Governance schafft Vertrauen

0

Kürzlich habe ich mich mit meinem Kollegen Michael Herrmann darüber unterhalten, wie Big Data die Anforderungen an Datenmanagement und vor allem an die Datenqualität verändert – und wie die IT, der Data Scientist und die Fachabteilung besser zusammenarbeiten können. Heute geht es darum, wie Daten nachvollziehbar und transparent gemacht werden können – sowohl in ihrer Entstehung als auch in ihrer Verarbeitung. Michael kam mit Frage auf mich zu, wie wichtig denn das Thema Data Governance aus analytischer Sicht sei.

Michael Herrmann: Im Zusammenhang mit Datenqualität ist natürlich auch das Thema Governance eine große Herausforderung für uns. Denn in der IT müssen wir nachweisen, dass die Datenverarbeitung transparent, durchgängig und valide ist. Wie geht ihr denn mit der Nachvollziehbarkeit von Datenflüssen um?

Gerhard Svolba: Das ist auch für uns Data Scientists ein wichtiges Thema. Ich gebe zu, wir sehen Datenaufbereitung als kreativen Prozess und möchten alle Freiheiten haben. Natürlich sind wir dankbar, wenn wir unsere eigenen abgeleiteten Variablen bauen, Gruppierungen verändern, flexibel aggregieren und strukturieren können. Aber ich weiß auch, wie wichtig diese Nachweisbarkeit ist, gerade insofern, als sie inzwischen auch von den Regulierungsbehörden verlangt wird. Da reicht es nicht, euch zu sagen: Das sind jetzt eben die finalen Analyseergebnisse. Wir müssen euch da auch Information zurückspielen, wie diese zustande kamen.

Michael: Und umgekehrt können wir euch aufzeigen, wo die Daten herkommen, also den Data Owner, die Datenquelle oder den Datenlieferant belegen, beziehungsweise anhand eines Datenflussdiagramms die sogenannte Lineage nachweisen. So habt ihr mehr Sicherheit, dass ihr auch die richtige Quelle verwendet und bekommt weniger Nachfragen von Kollegen in der Art: Wer hat denn dieses Feld eigentlich gefüllt?

Gerhard: Das ist sicher ein ganz entscheidender Punkt. Denn diese Nachvollziehbarkeit schafft auch Vertrauen auf unserer Seite, da wir sehen, wo die Daten eigentlich herkommen. Wenn ich den statistischen Prozess darauf reduziere, einer Datentabelle bestimmte Zusammenhänge zu berechnen, darf ich trotzdem nicht vergessen, dass diese Daten irgendwo entstanden sind. Sie haben eine Geschichte, und die muss man verstehen und kennen. Diese Lineage, also die Frage nach dem Ursprung und der Entstehung der Daten, macht die Datenanalyse erst transparent.

Michael: Und das ist angesichts der neuen regulatorischen Vorgaben immens wichtig. Im Sinne der EU-Datenschutz-Grundverordnung (DSGVO) müssen wir in gut einem Jahr als Gesamtunternehmen nachweisen, wo und wie sich die Daten bewegen. Fühlt ihr euch als Data Scientists eingeengt, weil ihr euch Fragen stellen müsst wie: Darf ich diese Daten überhaupt noch verwenden? Darf ich sie in mein Modell reinnehmen? Was sind die Anforderungen dafür?

Gerhard: Wir fühlen uns schon ein wenig eingeengt. Denn so wie in den vergangenen zehn Jahren werden wir in Zukunft wahrscheinlich nicht mehr arbeiten können, weil wir viel mehr Wert auf Nachvollziehbarkeit legen müssen. Wir müssen zeigen, wie wir zu bestimmten Entscheidungen kommen. Und wir müssen beweisen, dass wir Daten nur in einer bestimmten Weise nutzen und nicht irgendwelchen Vorgaben widersprechen. Ich denke, diese Initiative wird uns in Zukunft noch viel näher zusammenbringen.

Michael: Das ist auch meine Vermutung. Wir denken zudem im Moment darüber nach, den Data Mart, der ja zurzeit physisch als Datenbank vorliegt, zu dynamisieren. Das heißt, ihr könnt dann schneller reagieren, wenn beispielsweise jemand dem Callcenter Bescheid gibt, dass man seine Daten nicht verwenden darf. Wir können diese Daten jetzt dynamisch ausblenden, sodass ihr beim nächsten Datenabzug gar nicht mehr in die Gefahr kommt, Daten zu selektieren, wenn der Kunde dem widersprochen hat.

Gerhard: Das ist tatsächlich ein großer Vorteil. Wir vermeiden damit die Situation, dass wir mit einem Ergebnis oder mit einem Modell in ein Meeting gehen und uns gar nicht sicher sind, ob das wirklich die Daten sind, die wir verwenden dürfen. Schließlich lässt sich nicht ausschließen, dass jemand mal vergisst, diese Verwendbarkeit genau nachzuprüfen. Und da ist es natürlich sehr hilfreich, wenn ihr uns schon Mechanismen gebt, um das sicherzustellen.

Michael: Und das ist ja, was man unter „modernem Datenmanagement“ versteht. Dazu gehören dann auch Self-Service und Approachable Analytics.

Welche Technologien dabei eine Rolle spielen und wo die Reise für den Analytiker 2020 hingeht – dazu mehr im nächsten Blog.

Share

About Author

Gerhard Svolba

Principal Solutions Architect

Dr. Gerhard Svolba ist Analytic Solutions Architect und Data Scientist bei SAS Institute in Österreich. Er ist in eine Vielzahl von analytischen und Data Science Projekten quer über fachliche Domains wie Demand Forecasting, analytisches CRM, Risikomodellierung und Produktionsqualität involviert. Seine Projekterfahrung reicht von der fachlichen und technischen Konzeption über die Datenaufbereitung und die analytische Modellierung in unterschiedlichen Branchen. Er ist der Autor der SAS Press Bücher Data Preparation for Analytics Using SAS, Data Quality for Analytics Using SAS and “Applying Data Science: Business Case Studies Using SAS”. Als nebenberuflich Lehrender unterrichtet er Data Science Methoden an der Medizinischen Universität Wien, der Universität Wien und an Fachhochschulen. Sie finden auch Beitrage auf: Github und Twitter. ENGLISH: Dr. Gerhard Svolba ist Analytic Solutions Architect und Data Scientist bei SAS Institute in Österreich. Er ist in eine Vielzahl von analytischen und Data Science Projekten quer über fachliche Domains wie Demand Forecasting, analytisches CRM, Risikomodellierung und Produktionsqualität involviert. Seine Projekterfahrung reicht von der fachlichen und technischen Konzeption über die Datenaufbereitung und die analytische Modellierung in unterschiedlichen Branchen. Er ist der Autor der SAS Press Bücher Data Preparation for Analytics Using SAS®, Data Quality for Analytics Using SAS® and “Applying Data Science: Business Case Studies Using SAS”. Als nebenberuflich Lehrender unterrichtet er Data Science Methoden an der Medizinischen Universität Wien, der Universität Wien und an Fachhochschulen. Sie finden auch Beitrage auf: Github und Twitter.

Related Posts

Leave A Reply

Back to Top