Das Big Data Lab von SAS - Big Data Strategie
1995 - World Wide Web. Erinnern Sie sich, wie komplex und kompliziert es für ein Unternehmen war, eine eigene Website aufzubauen, Anwendungen zu definieren, diese redaktionell zu betreuen und die nötige Infrastruktur zu betreiben – heute unvorstellbar! Und sogar das Surfen im Internet war noch nichts für Jedermann. Bei SAS gab es nur eine ausgesuchte Person, die einen Zugang hatte (ein Mathematiker soll das gewesen sein - muss also ein schwieriges Problem gewesen sein). Kurz darauf begann mit der Kommerzialisierung der Siegeszug des Web. Wer heute nicht dabei ist, den gibt es nicht schlicht mehr.
2015 - Big Data Analytics. Erkennen Sie die Analogie? Wie schwierig erscheint auch heute der erste Schritt: Was bringt uns das Ganze? Wo bekommen wir die Fertigkeiten und Technologien her, das umzusetzen und zu testen? Was sind die Wertbeiträge einer Big-Data-Strategie für unser Unternehmen?
Auf dem SAS Forum in Bochum steht das Big Data Lab im Mittelpunkt. Besuchen Sie uns doch am 9. Juni!
Viele unserer Kunden weltweit stehen vor exakt dieser Situation. Und sie fragen uns als Marktführer für Business Analytics: Was benötigt ein Unternehmen, das Big Data Use Cases verproben möchte?
Hier ist unsere Erfahrung in einem kurzen Rezept! Die Kernzutaten - neben dem Mut zum Experiment und dem Willen, neue unternehmerische Chancen zu entdecken - sind immer gleich: Erfolgreiche Unternehmen betrachten jede experimentell zu untersuchende "Big Data Frage" als ein Projekt. Ausgestattet mit einer inhaltlichen Zielsetzung, einem zeitlichen Rahmen und Budget begibt sich das Projektteam, das in der Regel aus Vertretern des Management, der betroffenen Fachbereiche und in Bezug auf Datenanalytik geschultem Personal besteht, in eine geschützte "Spielumgebung", das Big Data Lab. Und dieses besteht aus folgenden Komponenten:
- Der Daten-See: Big Data heißt nicht immer schiere Masse und Geschwindigkeit. Oft heißt "big" in diesem Zusammenhang "relevant" und die Frage lautet, wie ein Unternehmen mit bislang nicht in (technische) Verbindung gebrachten Daten neue Erkenntnisse und damit Mehrwerte generieren kann. Aber egal in welcher Dimension Projektteams hier unterwegs sind: Es gilt, zum Zwecke der Erfolgsabschätzung einer Idee die richtigen Daten zusammenzuführen, ob aus dem Data Warehouse, weiteren internen Silos, externen oder neuartigen Quellen. Für diese oftmals polystrukturierten Daten eignet sich in besonderem Maße das Konzept des Data Lakes, also einer Sammelstelle für Daten, die einfach in ihrem Rohformat abgelegt werden. Diese Eigenschaft ist nicht zu unterschätzen: Datenlieferungen in das Labor (und damit die Projektumgebung) sind somit relativ einfach möglich und erfordern nicht a priori ein Datenintegrationsprojekt. Ein Datenschema muss erst zum Zeitpunkt einer Anfrage an die Daten definiert werden. Die experimentell zu beantwortende Frage an die Daten wird ja häufig erst während des Projekts schärfer, das Wissen um die benötigten Daten und deren geeignete Aufbereitung klarer. Während das Datenschema dann zur Anfragezeit nachjustiert werden muss, liegen alle Daten ohne Informationsverlust im Daten-See und damit in der Projektumgebung vor. Technisch kommt hier übrigens eine Hadoop-Infrastruktur zum Einsatz.
- Das Fischerboot: Zugegeben, das ist eine naheliegende Metapher. Ich hätte auch Fangflotte sagen können, aber das trifft es nicht! Das Vorbereiten und Zusammenfügen der richtigen Daten muss ohne IT-Involvement, also die aufwändig orchestrierte Profi-Flotte, möglich sein. Innerhalb des Projekts und vor dem Hintergrund einer Genauigkeit, die dem Erkenntniszweck angemessen ist (und damit nicht den Ansprüchen des Produktivbetriebs genügen muss) wollen Fachbereiche und Data Scientist Daten zusammenführen und als Grundlage für ihre experimentellen Auswertungen nutzen. Hierbei ist Zugänglichkeit der Schlüssel: Daten sollen ohne das Schreiben von Code mit möglichst vorbereiteten Direktiven in den Data Lake gepumpt und dort verarbeitet werden. Ob es hierbei um die Erstellung von Datenprofilen oder das Bereinigen und Vorverarbeiten geht: Wenn Big wirklich BIG ist, muss auch die Rechenkraft des verteilten Hadoop-Konzepts genutzt werden, um schnell zu Resultaten zu kommen. Erst dann hat das Projektteam die Möglichkeit, agil mit den Daten an seiner Zielerreichung zu arbeiten.
- Die Erkenntnis-Küche: Hier ist nun echte Teamarbeit gefragt - und reibungslose Kommunikation (wie in einer gut eingespielten Sterneküche). Den besten Zugang zum Marktwissen und strategischen Aspekten haben Management und Fachbereichsexperten. Sie können helfen, die richtigen Fragen an die Daten zu stellen und wettbewerbsrelevante Perspektiven einzunehmen. Das methodische Wissen, diese Fragen dann auch richtig anhand der Daten zu beantworten, haben die Data Scientists. Als geeignete Datensprache, quasi die lingua franca im Projekt, haben sich intuitive Visualisierungen bewährt, die durch statistische Methoden gestützt werden - so wie im Konzept der Visual Business Analytics beschrieben (https://www.dpunkt.de/buecher/3760/visual-business-analytics.html). So können alle Beteiligten miteinander über die Daten und ihre Erkenntnisse reden. Data Scientist benötigen dann in der Regel noch tiefergehende programmatische Methoden und Routinen mit vielen Freiheitsgraden, um Erkenntnisse mit geschäftlichem Potenzial statisch sauber abzusichern.
Und das waren auch schon die wichtigsten Zutaten. Die Infrastruktur des Big Data Lab bietet SAS als schlüsselfertige Umgebung an - on premise oder in der Cloud. Ein kompaktes Schulungsprogramm für Lab-Betreiber und Projektteams, ein Coaching rund um Ihr erstes Projekt - und sogar personelle Verstärkung, wenn es um Datenmanagement oder analytische Exzellenz geht, können Sie von uns bekommen. Und wenn Sie als Anwender des Big Data Labs noch Willen zum Erfolg und die Offenheit mitbringen, mit neuen oder neu zusammenzustellenden Daten zu experimentieren, sind Sie schon auf dem richtigen Weg.
P.S.: Nicht selten werden wir auch nach dem goldenen Use Case gefragt - aber diese Arbeit können wir Ihnen nicht abnehmen. Wir geben Ihnen aber gerne die Mittel an die Hand, sich zügig und zielgerichtet selbst auf die Suche zu machen. Sprechen Sie mich einfach an, wenn Sie mehr zum Big Data Lab wissen wollen! Mehr Infos auch in unserer aktuellen Ausgabe des SAS Magazins.