SAS und Hadoop - was bisher geschah

0

SAS und Hadoop: Immer mehr Unternehmen stellen Überlegungen zum Einsatz von Hadoop als Framework für verteiltes Speichern und Verarbeiten großer Datenmengen an. Gerade für das Speichern von un- oder semistrukturierten Daten wie soziale Medien, Blogs, Foren, Online-Shops oder maschinengenerierte Sensordaten bietet sich diese Plattform an. Natürlich besteht häufig der Wunsch, diese Daten mit Hilfe einer integrierten Plattform für Advanced Analytics wie SAS sie darstellt (vgl. Einstufung im aktuellen Gartner-Quadrant) auszuwerten. Daher stellt sich zwangsläufig die Frage: Welche Möglichkeiten liefert SAS, um diese Daten in Hadoop für die Analyse zu nutzen? Auf die Rolle des Datenanalysten oder Data Scientist bezogen: Was habe ich von SAS, wenn ich diese Daten analysieren möchte?

SAS & Hadoop - Was bisher geschah …

Mit Hilfe der Base SAS Prozedur PROC HADOOP sowie der SAS/ACCESS® Schnittstellen für Hadoop besteht schon seit SAS 9.3 die Möglichkeit, externe Daten (Textfiles) auf ein Hadoop Filesystem (HDFS) zu kopieren, auf Daten in HDFS zuzugreifen und mittels PROC HADOOP beispielsweise MapReduce-Jobs oder Pig-Anweisungen auszuführen. Mit PROC SQL konnten seit 9.3 darüber hinaus auch via Explicit Pass-Through Hive-Anweisungen ausgeführt werden. In SAS Data Integration Studio 4.5 wurde ebenfalls Funktionalität für Hadoop integriert, z.B. Hadoop Container, Hadoop FileReader und FileWriter, Hive Source Designer. Allerdings erfordert(e) dieses Vorgehen immer noch ein hohes Maß an Programmierkenntnissen – sowohl bzgl. SAS Code als auch bzgl. Hadoop (Pig, HiveQL etc.)

Im Zuge der In-Memory Technologie LASR Server lassen sich Hadoop Daten seit 2012 auch mit Hilfe von SAS Visual Analytics über eine grafische Benutzeroberfläche analysieren. In 2014 wurde darüber hinaus SAS Visual Statistics und SAS® In-Memory Statistics als Ergänzungen eingeführt. Beide Produkte setzen ebenfalls auf LASR Server aus. Während SAS® Visual Statistics als Ergänzung für statistische Modellierung in die Web-basierte Benutzeroberfläche von SAS® Visual Analytics integriert wurde, erlaubt SAS® In-Memory Statistics den programmatischen Zugriff auf die analytischen Fähigkeiten der Prozeduren RECOMMEND und IMSTAT, wesentlichen Bestandteilen der LASR Server In-Memory Technologie.

Mit Hilfe des SAS® Scoring Accelerator for Hadoop können Scoring-Vorgänge für prädiktive Modelle parallelisiert auf einem verteilten Hadoop-Cluster ausgeführt werden.

In Verbindung mit weiteren Produkten wie SAS® Enterprise Miner™ für die Entwicklung prädiktiver Modelle (mit der Fähigkeit zur In-Memory-Verarbeitung durch die High-Performance Data Mining Knoten) sowie SAS® Model Manager als Plattform für die Verwaltung solcher Modelle lassen sich seit vergangenem Jahr also wesentliche Elemente eines Analytic Model Lifecycle bereits realisieren.

Der Predictive Analytics Life Cycle

Es verbleiben aber immer noch Herausforderungen, um den Prozess von der Modellkonzeption bis zur produktiven Umsetzung noch effizienter zu machen.

Wie kann man die notwendigen Schritte zum Aufbereiten der Daten für die Modellentwicklung und das Scoring einer größeren Anwenderbasis zugänglich machen – ohne im größeren Umfang Programmierkenntnisse in SAS, Pig oder HiveQL vorauszusetzen? Mit anderen Worten: Wie kann man den analytischen Anwender bei der Datenaufbereitung ein Stück weit zum „Selbstversorger“ machen?

SAS & Hadoop – Neuerungen in 2015

SAS adressiert genau diese Herausforderung mit dem seit Februar 2015 verfügbaren neuen Data Loader for Hadoop. Dem Anwender stehen damit umfassendere Möglichkeiten zur Datenintegration und auch zur Datenqualitätssicherung zur Verfügung – und das in einer Web-basierten grafischen Benutzeroberfläche. Damit sinkt für den analytischen Anwender die Einstiegshürde für die tägliche Arbeit mit Rohdaten, die im HDFS vorliegen.

Einstiegsseite für den SAS® Data Loader for Hadoop

Doch welchen Nutzen hat ein analytischer Anwender davon? Hier sind ein paar Beispiele und Anregungen dafür:

  • Laden verschiedener externer Datenquellen aus Datenbanken in Hadoop und das Verknüpfen zu einem analytischen Data Mart oder einer analytischen Base Table (ABT) als Ausgangsbasis für ein Modelltraining
  • Filtern nicht-relevanter bzw. unvollständiger Datensätze aus dem analytischen Data Mart
  • Profiling von Spalten zur Überprüfung der Wertebereiche (deskriptive Statistik, Einzelwert-Häufigkeitsauszählungen u.a.)
  • Standardisieren von Wertebereichen für Spalten
  • Transponieren von Spalten in Zeilen
  • Aggregation von Werten in einzelnen Zeilen zu Gruppen (z.B. Summenbildung)
  • Parsing, d.h. Extraktion von Teilinformationen aus Spalten, z.B. Postleitzahlen-Regionen aus Postleitzahlen, Vorwahlnummer aus Telefonnummern
  • Generieren von Matchcode aus Spalteninformationen, z.B. zum Erkennen von Dubletten

Natürlich ließen sich diese – und andere Datenvorbereitungsschritte – auch mit HiveQL, Pig oder anderen Werkzeugen in Hadoop bewerkstelligen. Allerdings muss der Anwender dann die entsprechende Syntax beherrschen. Für nicht programmieraffine Anwender ist die Einstiegshürde zum vorbereitenden Datenmanagement dagegen hier deutlich leichter.

Übrigens: SAS & Hadoop ist auch ein Thema auf der diesjährigen KSFE. Hier können Sie mehr über die Nutzung von SAS Analytics auf Hadoop und den neuen Data Loader for Hadoop erfahren.

Tags Hadoop sas
Share

About Author

Stefan Ahrens

Sr Solutions Architect

Stefan Ahrens hat an der Westfälischen Wilhelms-Universität Münster Volkswirtschaftslehre mit den Schwerpunkten Statistik und Ökonometrie studiert und ist seit November 2003 als Solution Architect im Competence Center Analytics bei SAS Institute Deutschland tätig. Seine Tätigkeitsschwerpunkte liegen aktuell bei den Themen Statistische Datenanalyse, Data Mining, Forecasting und Betrugserkennung für verschiedene Branchen. Vor seiner Tätigkeit bei SAS Institute war bei StatSoft, einem Hersteller für Statistik-Software, und bei Research International, einem Marktforschungsunternehmen, jeweils als Statistiker und analytischer Berater tätig.

Leave A Reply

Back to Top