Hadoop ist kompliziert und SAS ist nicht Open Source. Wie diese beiden Konzepte zusammenkommen, erläutert eine Interactive Session auf dem SAS Forum, in der einleitend auch eine aktuelle BARC-Studie zur Hadoop-Nutzung in Deutschland, Österreich und der Schweiz vorgestellt wird. Dieser Beitrag gibt einen Einblick in den Inhalt der Session – und eine Anleitung zum Selbst-Ausprobieren. Hadoop ist auch Thema auf dem diesjährigen SAS Forum in Bochum, 9. Juni
BARC hat im Auftrag von SAS Unternehmen im deutschsprachigen Markt zu Hadoop befragt. Wo wird es eingesetzt, welche Anwendungsszenarien gibt es und wo liegen Hindernisse? Nicht verwunderlich ist eine der Haupterkenntnisse: Es fehlt an Know-how zu Hadoop. Deshalb planen viele Unternehmen umfangreiche Investitionen in die weitere Ausbildung ihres IT Personals, um damit eine Nutzung von Hadoop zu ermöglichen. Timm Grosser, der verantwortliche BARC-Analyst, wird die Studie am 9. Juni in Bochum in der Session „Big Data Analytics mit Hadoop“ vorstellen und erläutern.
Was genau Hadoop ist, und wie man erste Erfahrungen damit sammeln kann, stellt anschließend Karsten Haldenwang von Hortonworks vor. Der Einstieg ist denkbar einfach: Herunterladen und ausprobieren. Die Hortonworks Sandbox bietet dafür eine bequeme Möglichkeit des Einstiegs. IN der Session zeigen wir diese Sandbox auch live und erläutern den Umgang damit.
Wie kommen aber Daten in Hadoop hinein? Für den erfahrenen Hadoop-Programmierer ist das kein Problem. Was aber ist mit dem Neuling und dem Fachbereichs-Anwender? Neben der Möglichkeit, letztere zu Programmierern von Map/Reduce-Routinen mittels Java auszubilden, gibt es nun von SAS eine weitere Möglichkeit: den SAS Data Loader for Hadoop. Diese vollständig neu entwickelte Applikation stellt webbasiert eine einfach bedienbare Oberfläche zur Verfügung. Ohne Coding lassen sich umfangreiche Datenaufbereitungsfunktionen nutzen. Ein Alleinstellungsmerkmal ist zudem die Anwendung von Datenqualitätsalgorithmen direkt in Hadoop. Hans Edert, einer der Hadoop-Spezialisten bei SAS, stellt diese Anwendung im Zusammenspiel mit der Hortonworks-Sandbox vor.
Die Session ist gedacht als interaktives Format. Mit den genannten drei Experten ist genügend Know-how versammelt, um eine Vielzahl von Fragen rund um Hadoop zu klären. Vielleicht wollen Sie das beschrieben Szenario bereits „zuhause“ vorab testen und dann konkrete Fragen mitbringen? Nichts leichter als das. Sie können nämlich nicht nur die Hortonworks-Distribution kostenlos herunterladen, sondern auch den SAS Data Loader.
Eine kurze Anleitung:
- 1. Gehen Sie auf die Webiste von Hortonworks http/hortonworks.com/products/hortonworks-sandbox/#install
- 2. Laden sie sich dort die Sandbox HDP 2.2 herunter und installieren sich diese
- 3. Zum Betrieb benötigen Sie eine virtuelle Maschine: WMware Player for Windows x64 (für Windows) oder VMWare Fusion for Mac OS X 6.0 (für Mac)
- 4. Folgen Sie nun dem Link auf den Download des SAS Data Loaders for Hadoop: http://go.sas.com/x991pj
- 5. Installieren Sie das Paket. Dort erhalten Sie dann weitere Anleitungen und Videotutorials
Nun können Sie Daten in Hadoop laden, Datenqualitätsroutinen in Hadoop ausführen – kurz ausprobieren, wie einfach Datenmanagement für Hadoop sein kann. Wir sind gespannt auf Ihr Feedback!