Gute Statistik vs. Böses Data Mining?

0

Gerade in der heißen Phase des Bundestagswahlkampfs ist es immer wieder passiert. Im Freundeskreis wurde ich bei jeder Prognose oder Hochrechnung darauf angesprochen, was ich eigentlich genau beruflich mache - natürlich insbesondere von Personen, die nicht in der IT-Branche oder in der Welt der Mathematik zu Hause sind. Ich habe in solchen Situationen schon häufiger beobachtet, dass die Reaktion auf die Umschreibung meiner Tätigkeit unterschiedlich ausfällt. Je nachdem, wie ich dabei mit den Begriffen "Statistik" und  "Data Mining" hantiere.

Bei "Statistik" fällt sie eher wohlwollend aus. Auch wenn man keine Begeisterung erwarten darf. Es klingt eben nach Wissenschaft und Objektivität. Nun ja, ich bin mir bewusst, es gibt andere Berufsfelder, die sicher deutlich spannender klingen. Astronaut, Feuerwehrmann oder Pilot fallen mir da spontan ein - übrigens alles Berufe, die auf die Vorarbeit und Qualität ihrer Statistiker vertrauen müssen.

Völlig anders dagegen die Reaktion, wenn ich den Begriff "Data Mining" ins Spiel bringe. Hier erlebe ich durchaus Situationen, wo ich in einen Rechtfertigungs- und Verteidigungsdruck gerate. Der Begriff ist schon fast traditionell in der Umgangssprache eher negativ belegt und diverse Skandale zum Datenmissbrauch in der letzten Zeit bedienen natürlich entsprechende Klischees.

Worin liegt die Ursache für dieses negative Image?

Es hat weniger mit der Verarbeitung großer Datenmengen an sich zu tun. Auch wenn der assoziativ hergestellte Gleichklang der Begriffe "Big Data" und "Big Brother" das nahelegen könnte. Denn kaum jemand nimmt Anstoß daran, wenn Data Mining beispielsweise zur Ursachenforschung beim Erkennen von Effizienzproblemen oder bei der Umweltbelastungen industrieller Produktionsprozesse eingesetzt wird. Oder wenn fortlaufend gemessene Sensordaten über Systemzustände eines Fahrzeugs oder einer Maschinenanlage mittels Data Mining herangezogen werden, um die Ausfallsicherheit oder Produktqualität zu erhöhen. Auch in der medizinischen Forschung oder bei der klinischen Diagnostik leisten Verfahren des Data Mining wertvolle Dienste, die niemand heute ernsthaft in Frage stellen würde.

Die Akzeptanz schwindet aber dann schnell, wenn es um die Auswertung personenbezogener Daten in Richtung "gläserner Kunde/Bürger/Patient" geht. Obwohl ich die Missbrauchsgefahren nicht verharmlosen möchte, habe ich mitunter den Eindruck, dass in der öffentlichen Wahrnehmung ein falscher Eindruck herrscht. Frei nach dem Motto: "Data Mining ist schuld daran, dass mein Postfach mit Werbung vollgestopft wird!"

Das genaue Gegenteil ist aber eigentlich richtig: Das Postfach quillt häufig deswegen über, weil eben möglicherweise zu wenig Data Mining eingesetzt wird. So werden bei der Zielgruppenselektion für Kampagnen, die letztlich darüber entscheiden, welche Werbung in welchem Postfach landet, eben immer noch zu wenige Modelle eingesetzt, um Response-Neigungen, Produkt- und Kanalaffinitäten möglicher Adressaten zu bestimmen. Mit anderen Worten: Richtig angewendet sorgt Data Mining für eine intelligentere Auswahl, wer über welche Kanäle wann und mit welchen Botschaften angesprochen werden darf. Das spart auf der einen Seite Ressourcen des Werbetreibenden, auf der anderen Seite natürlich auch Nerven des Werbeempfängers. Dazu gehört natürlich auch, dass "richtiges" oder "gutes" Data Mining damit umzugehen weiß, ob und wann ein möglicher Adressat überhaupt angesprochen werden möchte.

Gute verwandtschaftliche Beziehungen zur Statistik!

Dabei sind ja die eher positiv besetzte Statistik und Data Mining durchaus miteinander verwandt. Als Querschnittsdisziplin verschiedener Fachdisziplinen fußt Data Mining auch auf statistischen Grundlagen. In der Tat helfen solide Statistikkenntnisse sicher dabei, die Wirkungsweise verschiedener Data Mining Methoden in der Praxis zu verstehen. Wenn man beispielsweise mit Grundlagen statistischer Signifikanztests (z.B. ein Chi-Quadrat-Test auf Unabhängigkeit, Bonferroni-Korrektur für multiple paarweise Vergleiche) vertraut ist, kann man die Art und Weise, wie ein Entscheidungsbaumalgorithmus vom Typ CHAID einen Datenbestand segmentiert, viel einfacher begreifen.

Ich würde mir wünschen, dass der Begriff Data Mining in der Öffentlichkeit (wieder) einen positiveren "Beigeschmack" bekommt. Vielleicht sind wir, die wir in der Praxis damit arbeiten, aufgefordert, mehr Beispiele dafür zu bringen, wo Data Mining heute schon nutzbringend zum Wohl der Allgemeinheit eingesetzt wird.

Tags Statistik
Share

About Author

Stefan Ahrens

Sr Solutions Architect

Stefan Ahrens hat an der Westfälischen Wilhelms-Universität Münster Volkswirtschaftslehre mit den Schwerpunkten Statistik und Ökonometrie studiert und ist seit November 2003 als Solution Architect im Competence Center Analytics bei SAS Institute Deutschland tätig. Seine Tätigkeitsschwerpunkte liegen aktuell bei den Themen Statistische Datenanalyse, Data Mining, Forecasting und Betrugserkennung für verschiedene Branchen. Vor seiner Tätigkeit bei SAS Institute war bei StatSoft, einem Hersteller für Statistik-Software, und bei Research International, einem Marktforschungsunternehmen, jeweils als Statistiker und analytischer Berater tätig.

Leave A Reply

Back to Top