Im diesem Gastbeitrag von Accantec geht es um den Datenschutz im Big Data Umfeld. Accantec präsentiert sich auf dem diesjährigen SAS Forum in Bonn (28. April) mit einem eigenen Stand. Lassen wir ab jetzt Gero Hentschel von Accantec sprechen.
Big Data ist längst keine Modeerscheinung mehr, sondern in vielen Unternehmen mittlerweile gelebte Realität. Nicht nur Google und Amazon werten in hoher Geschwindigkeit große Datenmengen aus, um ihr Geschäft weiter anzukurbeln und das Kundenverhalten besser abschätzen zu können.
Auch Unternehmen aus den unterschiedlichsten Branchen, wie zum Beispiel Telekommunikation, Gesundheitswesen, E-Commerce, Versicherungs- oder Finanzbranche nutzen Big Data. Am interessantesten sind für all diese Unternehmen die Kundendaten beziehungsweise Daten, die Aufschluss über den Kunden geben – kurzum: personenbezogene Daten. Der datenschutzgerechte Umgang mit personenbezogenen Daten ist in jedem Unternehmen Pflicht – und insbesondere in Analytics- und Big-Data-Projekten eine Herausforderung.
Als „personenbezogene Daten“ gelten dabei alle Formen von Informationen zu einer Person, wie zum Beispiel Adresse, Geburtsdatum, Telefonnummer und E-Mailadresse, Bankverbindung, Personalnummer, persönliche Vorlieben oder gesundheitliche Informationen. Darunter fallen auch Stamm- und Vertragsdaten, Transaktions- und Bestelldaten, IP-Adressen, Cookies, Browser-Fingerprint, Verbindungsdaten und selbst Geodaten.
Grundprinzipien des Datenschutzes
Zu den datenschutzrechtlichen Grundprinzipien, die bei der Verwendung personenbezogener Daten einzuhalten sind, gehören unter anderem Datensparsamkeit und -vermeidung. Hiermit wird das wahllose Sammeln von Daten strikt untersagt und als oberste Maxime im Umgang mit personenbezogenen Daten festlegt, dass so wenige Daten wie möglich erhoben werden dürfen.
Die Grundlage jeder Datenverarbeitung ist ein von vornherein festgelegter, eindeutiger und rechtmäßiger Zweck. Über das Prinzip der Erforderlichkeit hinaus ist es grundsätzlich verboten, personenbezogene Daten zu erheben, zu verarbeiten und zu nutzen. Dieses Verbot kann nur durch das BDSG selbst, eine andere Rechtsvorschrift (beispielsweise in Bezug auf Steuern und Abgaben) oder durch die freiwillige Zustimmung der betroffenen Person erlaubt werden.
Eines der einschneidendsten Grundprinzipien des Datenschutzes ist das Trennungsgebot. Demnach müssen personenbezogene Daten, die zu unterschiedlichen Zwecken erhoben wurden, getrennt voneinander verarbeitet werden. Hinzu kommt des Weiteren, dass jeder Betroffene wissen soll, dass Daten über ihn erhoben werden und welche Daten für welchen Zweck bei welcher Stelle für wie lange und aus welchem Grund gespeichert werden.
Das Konfliktfeld Big Data im datenschutzrechtlichen Kontext entsteht entlang der Grundprinzipien.
Die Datenschutzgrundprinzipien haben große Auswirkungen auf Big-Data-Projekte und der damit einhergehenden Analyse und Verarbeitung von großen Datenmengen aus unterschiedlichen Datenquellen. Stehen diese doch häufig dem Ansatz im Wege, mittels Big Data möglichst viele und umfangreiche Daten in alle möglichen Richtungen zu analysieren, um Erkenntnisse zu gewinnen, die von vornherein nicht ersichtlich waren. Dennoch besteht kein Grund zur Resignation vor Big-Data-Projekten: Sie sind und bleiben möglich, auch unter Einhaltung des geltenden Datenschutzes.
Mittels Anonymisierung oder Pseudonymisierung den Personenbezug aufheben
Big-Data-Analysen schaffen es aus der rechtlichen Grauzone, indem man einen Weg findet, die Daten so zu verändern, dass ein Personenbezug bei der Analyse und der Auswertung nicht mehr möglich ist. Die entsprechenden Daten werden anonymisiert oder pseudonymisiert. Mithilfe dieser beiden Verfahren können die Daten nicht mehr (oder nur mit äußerst hohem Aufwand) eindeutig einer bestimmten Person zugeordnet werden.
Systemseitig kann der gesetzliche Gestaltungskorridor einfach geschaffen werden. Beispielsweise mit einer Lösung, die das Anonymisieren und Pseudonymisieren der relevanten und interessanten Daten ermöglicht. In Zeiten von Big Data geschieht dies selbstverständlich hochperformant.
Für das Analysieren unterschiedlichster Daten aus verschiedenen Quellen sollten systemseitig Vorkehrungen getroffen werden. Zum einen müssen Daten, die für den weiteren Verarbeitungsprozess ab einer bestimmten Stufe nicht (mehr) erforderlich sind, zum frühestmöglichen Zeitpunkt gelöscht werden. Zum anderen muss bei Daten, die für bestimmte Kontroll- oder Nachweisfunktionen im Einzelfall noch benötigt werden, der Personenbezug durch Anonymisierung aufgehoben oder durch Pseudonymisierung gelockert werden.
Lösungsansatz mittels Data Privacy Server
Durch moderne Anonymisierungs- und Pseudonymisierungsverfahren lassen sich Big-Data-Auswertungen datenschutzkonform durchführen und die Ergebnisse profitabel verwenden. Für Analysezwecke ist oftmals die Sicht auf einzelne Personen im Data Warehouse nicht notwendig, es können anonymisierte beziehungsweise pseudonymisierte Daten genutzt werden.
Eine Lösung ist der Einsatz eines Data Privacy Servers. Dieser kann Daten – nach Wunsch und im Einzelfall – pseudonymisieren oder anonymisieren. Zur Pseudonymisierung werden aktuelle Verschlüsselungsmethoden verwendet. Aus technischer Sicht handelt es sich bei der Pseudonymisierung um ein symmetrisches Verschlüsselungsverfahren, das mit periodisch wechselnden Schlüsseln ausgeführt wird und so die Ausgangsdaten für den Fachanwender unlesbar macht.
Die Lösung ist dabei flexibel anwendbar, so dass die Integration in die Systemlandschaften verschiedener Hersteller (unter anderem IBM Cognos und Datenbanklösungen, SAS oder SAP) möglich ist. Ebenso lässt sich der Data Privacy Server in eine Big-Data-Lösung integrieren.
Die Position, an der der Data Privacy Server integriert ist, ist nicht vorgegeben. Das Schaubild ist ein Vorschlag – die Integration kann an jeder anderen Stelle des Datenstroms erfolgen.
Eingebettet in klassische ETL-Prozesse stellt die Pseudonymisierung bei der Beladung von Data-Warehouse-Systemen und analytischen Datenbanken sicher, dass die Datenbewirtschaftung unter Berücksichtigung des Datenschutzes geschieht. Technisch gesehen, findet die Protokollierung dabei innerhalb des Data Privacy Servers statt, sodass diese getrennt vom restlichen Datenbestand des Data Warehouse oder der Big-Data-Lösung bleibt. Im Idealfall sind die Klartexte für Anwender und Entwickler nicht zugänglich. In der Zugriffsschicht (Data Marts/Reports) stehen lediglich pseudonymisierte Daten zur Verfügung.
Über die reine Pseudonymisierung hinaus muss selbstverständlich festgelegt sein, welche Felder (zum Beispiel Vorname, Nachname, Adresse) aus den Datenbeständen komplett zu entfernen sind. Ähnlich wird auch bei der Anonymisierung verfahren. Die größte Herausforderung bei der Anonymisierung besteht darin, den Informationsgehalt möglichst groß zu halten.
Im Gegensatz zu anonymisierten Daten können pseudonymisierte Daten mittels Depseudonymisierung wieder sichtbar gemacht werden. Die Berechtigung für das Verfahren der (De-)Pseudonymisierung wird über Transaktionsnummern (TAN) gesteuert, die, analog zum TAN-Verfahren bei Geldinstituten, nur einmalig verwendet werden können. Im Idealfall unterliegt die Herausgabe der einzelnen TANs der Verantwortung des Datenschutzbeauftragten. Die durchgeführten (De-)Pseudonymisierungen werden unter Angabe der gesetzlichen Grundlagen vom Data Privacy Server umfangreich protokolliert. Über das Reporting hat der Datenschutzbeauftragte Zugriff auf diese Protokollierung und kann so die Rechtmäßigkeit der erfolgten (De-)Pseudonymisierung jederzeit nachvollziehen.
Fazit
Der Trend zur Verarbeitung immer größerer Datensammlungen lässt nicht mehr stoppen. Unternehmen wie Google, Amazon und Co machen vor, wie technische Entwicklungen und wirtschaftliche Verwertungsmöglichkeiten profitabel eingesetzt werden können. Das Spannungsfeld zwischen Big-Data-Analysen und den hochsensiblen, personenbezogenen Daten kann nur mittels einer automatisierten und hochperformanten technischen Lösung wie dem Data Privacy Server entschärft werden.
Bei weiteren Fragen wenden Sie sich gerne an Gero Hentschel: g.hentschel@accantec.de