Dublettensuche mit SAS - doppelte Lottchen erkennen sich in Hadoop

0

Fotolia_99519264_L-herrmannS

Liz Maria Muller Junior ist aktiv im Netz unterwegs, dort vernetzt und meinungsbildend. Ihre Meinungen schätzen ihre „Follower“; das hat „ihr Data Scientist“ schon rausgefunden und ihr das Attribut „Influencer“ verpasst. Nach vielem Abmühen in seiner neuen Hadoop-Sandbox macht das ihren Data Scientist ein bisschen stolz: Eine wertvolle Neukundin wäre diese Liz, ja, der Anfang einer langen „Customer Journey“ bei seinem Arbeitgeber und so weiter, denkt er. Denn es ist wieder spät geworden im Labor. Hier geht es um Dublettensuche ....

Doch immerhin ist der verflixte Abgleich mit den Bestandskunden nun endlich mal fehlerfrei durchgelaufen…

Liz ist auch bei der Schufa eingetragen, allerdings als „Dr. Müller, Elisabeth geb. Maier“. Den Eintrag hat sie, weil sie wie unser Data Scientist auch bereits Altkundin ist bei eben jenem Unternehmen, das 2016 Big Data probiert. Und daran wird sie sich schmunzelnd erinnern, wenn sie die werbenden Zeilen des Scientists bald aus ihrem Spam-Ordner putzt. Oder das „Begrüßungspaket“ in die blaue Tonne wirft. Vielleicht schreibt sie auch nen Blogpost drüber. Seufz, wenn das Thema nur was hergäbe…

In der IT ist das Thema „Dublettensuche“ seit dem Jahrtausendwechsel hinreichend gelöst: Es gibt Serviceanbieter, smarte Tools und längliche Programme in den Kellern der Rechenzentren, die ständig Adressfelder „zersägen“, um den Vornamen zu finden. SAS-Kunden finden sich zurecht: der automatisch generierte „Matchcode“ ist derselbe – ob nun Liz oder Elisabeth…

In manchem Big Data Labor fühlt man sich nun aber eher in der Zeit zurück versetzt: zwischen zuckerfreien Softdrinks werden zwar keine Linux-Kernel mehr kompiliert, es wirkt aber als feiere das Unix-Prompt seine Renaissance: Knifflige Skripte rechtfertigen knackige Stundensätze.

Dieses pragmatische Forschen ist gewollt und gut. Denn die Zeit ist knapp und graphisches Modellieren wird mitunter als „uncool“ empfunden. Auch bewegen klassische ETL/DQ-Tools die Datenmassen notorisch „hin zum Tool“ und, ja, das ist blöd, das dauert. Da bleibt man lieber im geheimnisvollen Hadoop und bessert „das mit der Qualität“ dann später nach. Aus Tradition.

Dabei gibt es neuerdings eine Lösung, die im Hadoop mal kräftig aufräumt. Auf Klick, transparent und elegant aus einer HTML5-Oberfläche heraus. Dieser SAS Data Loader for Hadoop bringt die marktführenden DQ-Prüfregeln schon mit, verteilt die Logik automatisch per one-click-install in den Cluster, putzt „in place“ und merkt sich, was man da so an Aufgaben gelöst hat. Falls mal wer fragt, wie man denn zu grad der Kundenerkenntnis gelangt ist. Oder man selbst das noch mal wissen will…

Das können Sie nun auch kostenlos ausprobieren.

Share

About Author

Michael Herrmann

Sr Solutions Architect

Michael Herrmann ist Sr Solutions Architect und Data Management Consultant bei SAS. Er berät Finanzdienstleister rund um Risiken, Governance und ihre „Vermeidung“, Presaler, PoC-Macher und Metadaten-Fan, bekehrter COBOL-Anwendungsentwickler mit abgebrochenem IT-Studium, Rheinländer im Exil, orientiert an Edward Tufte bis Scott & Douglas Adams, staunt über Deep Learning, Tabellenkalkulationen und Attributionsfehler.

Leave A Reply

Back to Top