Die aktuelle BARC-Studie verrät die Sicht der Unternehmen auf modernes Datenmanagement mittels Hadoop und Data-Lake-Konzepten. Die Anwenderbefragung gibt einen interessanten Blick auf den derzeitigen Status von Hadoop und Data Lakes in Europa und Nordamerika. Wo wird das Ecosystem eingesetzt, was ist der erhoffte Nutzen, und wo sind die Grenzen, um ein paar Beispiele zu nennen. Was bringt einem der Einsatz von Hadoop, und welcher Aufwand geht damit einher, sind Fragen, die man sich sicher als Erstes stellt.
Die Studie zeigt, dass sich nicht nur Großunternehmen mit der Technologie Hadoop beschäftigen. Die produktive Nutzung des Frameworks wird häufiger, und interessanterweise geht es dabei nicht um Big Data. Der Großteil der Anwendungen verarbeitet eher kleine Datenmengen. Im Hinblick auf Datenvolumen bedeutet größer nicht unbedingt besser.
Die Einsatzszenarien gehen in Richtung Datenaufbereitung und Exploration, getrieben von BI Competence Center und Data Scientist. Wen wundert es da, dass Customer Intelligence und Predictive Analytics die ersten Anwendungen sind, die als nutzbringend im Kontext Hadoop umgesetzt werden? Mein Rat: Lassen Sie bei der Betrachtung von Use Cases die Datenqualität nicht außer Acht. Wer in einen analytischen Prozess schlechte Daten hineingibt, bekommt entsprechende Ergebnisse. Erstaunlicherweise wird das Thema „Umgang mit schlechter Datenqualität im Lake“ in der Studie nicht genannt.
Es wird deutlich, was ich auch bei meiner Arbeit bei Kunden erlebe: Fehlendes Know-how und daraus resultierende Unsicherheit sind noch eine Hürde, wenn es um den Einsatz eines Hadoop-Clusters geht. Hier sehe ich die Chance, mit mehr Transparenz und Technologie, die einem größeren Anwenderkreis die Nutzung erlauben, eine Erfolgstory zu etablieren.
Europa und Nordamerika weisen in manchen Bereichen bezüglich der Nutzung von Hadoop noch Unterschiede auf. Hadoop als Speicher für Daten zu nutzen, hat in Europa einen wesentlich höheren Stellenwert als in Nordamerika. Das Spektrum, wie das Framework genutzt wird, ist jedoch nach wie vor breit.
Die Befragung bietet Überraschungen, z. B., dass Hadoop unabhängig von Unternehmensgröße, Datenvolumen, Datentypen oder Anforderungen an die Aktualität eingesetzt wird. Damit als innovativer technologischer Baustein vielseitig geeignet, gerade im Sektor Datenmanagement. Wann machen Sie sich auf die Reise, den Hadoop-Kosmos zu betreten?
Meine Empfehlung: Diskutieren Sie neue Anwendungsfälle, die mit dem Data-Lake-Konzept in ihrem Unternehmen umgesetzt werden können. Im Bereich Datenaufbereitung, z. B. Datenqualität, sicherlich ein entscheidender Erfolgsfaktor und eine Grundlage für Projekte im Umfeld von Customer Intelligence und Predictive Analytics. Misstrauen, unkalkulierbare Aufwände und Risiken sind aus meiner Sicht weder zu vernachlässigen noch zu unterschätzen, der Data Lake sorgt nicht automatisch für gute Datenqualität.
Bevor ich die Studie gelesen habe, war ich gespannt, ob es eine Kluft zwischen Beratung und der Sicht von Unternehmen/Mitarbeitern auf den gelben Elefanten gibt, und wenn ja, wie groß diese ist.
Ich hoffe, Ihr Interesse geweckt zu haben, und wünsche Ihnen viele Erkenntnisse beim Lesen der BARC-Studie „Hadoop und Data Lakes – Use Cases, Nutzen und Grenzen“!
Anfang des Jahres habe ich zu Data Lakes bereits einen Blogbeitrag veröffentlicht. Mehr unter: Hadoop und SAS – Frischwasser für Data Lakes